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内 容 近 要 


神经 网 络 是 一 种 模拟 人 脑 的 神经 网 络 ， 以 期 能 够 实现 类 人 工 智能 的 机 
蚀 学 习 技 术 。 


本 书 揭示 神经 网 络 育 后 的 概念 ， 并 介绍 如 何 通 过 Python 实现 神经 网 
络 。 全 书 分 为 3 重 和 两 个 附录 。 第 1 章 介 绍 了 神经 网 络 中 所 用 到 的 数学 思 
想 。 第 2 半 介 绍 使 用 Python 实 现 神 经 网 络 ， 识 别 手 写 数字 ， 并 测试 神经 网 络 
的 性 能 。 第 3 章 市 领 谈 者 进一步 了 解 简 单 的 神经 网 络 ， 观 察 已 党 训练 的 神经 
网 络 内 部 ， 笑 试 进一步 改善 神经 网 络 的 性 能 ， 并 加 深 对 相关 知识 有 的 理解 。 
附录 分 别 介绍 了 所 需 的 微 积 分 知识 和 树 每 派 知 识 。 


本 书 适合 想 要 从 事 神经 网 络 研究 和 探索 的 读者 学 习 参 考 ， 也 适合 对 人 
工 智能 、 机 器 学 习 和 深度 学 习 等 相关 领域 感 兴趣 的 读者 阅读 。 


FANT 


源太 华 的 人 月 ， 不 像 中 国 的 再 方 那么 炎热 ， 甚 至 有 丝 丝 凑 意 。 每 到 下 
午时 分 ， 如 果 没 有 下 十 ， 工 作 了 一 天 ， 有 些 倦 尽 的 我 一 般 会 沿 痢 里 多 运河 
(地界 文化 遗产 ) ， 随 看 国会 山 的 方 癌 慢 慢 跑 去 。 从 出 租 屋 到 里 多 运河 ， 
不 到 10 分 钟 的 路 程 。 来 到 运河 前 ， 生 命 殉 像 翻 开 了 一 页 流畅 缠 绢 的 区 详 ， 
一 群 日 钢 在 空间 悠远 的 蓝天 下 舞蹈 ， 倘 尔 ， 还 可 以 听 到 为 数 不 多 的 几 只 夏 
蝉 在 悠久 的 运河 边 轻 轻 吟唱 ， 不 是 那么 刺 目 的 阳光 随意 地 拨 动 内 看 闪光 的 
水 面 ， 和 凭栏 远 姚 ， 里 多 运河 就 像 一 位 饱 经 风霜 的 老人 ， 辐 周围 的 人 们 九 九 
WWA EESE... 


日 子 融 这 样 一 天 一 天 重复 看 ， 连 续 数 月 ， 我 完成 了 此 书 的 翻 详 。 人 工 
镶 能 、 神 经 网 络 、 机 硕 学 习 ..…. 一 个 一 个 让 有 现代 电子 气 上 县 的 词汇 ， 一 次 
又 一 次 给 我 的 大 脑 融 来 的 新 的 感受 ， 也 给 我 市 来 了 对 人 生 的 新 理解 ， 但 
征 ， 越 是 如 此 ， 我 惑 越 想 回 到 历史 寻找 答 守 ， 布 副 在 历史 的 废墟 中 ， 能 找 
IREME, MIR OP HSER 


多 年 来 ， 普 通 人 《包括 我 在 内 ) SAT SHER Pix, BATERE 
只 不 过 是 用 更 高 级 、 更 复杂 的 数学 指令 ， 各 诉 计 算 机 怎么 做 ， 怎 样 模 拟人 
关 行 为， 让 计算 机 “ 伴 概 ?理解 人 区 的 感情 。 但 是 ， 本 书 的 作者 人知 诉 我 们 ， 
其 实 ， 授 “计算 机 ”以 鱼 不 如 授 “ 计 算 机 ”以 汽 。 无 需 太 局 深 的 数学 上 思想 ， 我 
们 仅 拖 高 中 数学 ， 吏 可 以 打造 出 一 个 专家 级 别 的 “神经 网 络 ”。 这 并 非 伟 大 
cr, ae, MERRY, SEEN SER. 


ME, PARA PRS ARAE RS, AREER PML, BL 
we Ta WD EU EO], BUR OR AER TIF KWAK ACK 
WS, RRS Se, VARBWES AA, W AMAER”. UR 
HARER FIARE S RERA A, ENL, MWE ALE 
ERREFE TS ARMA AEE. HRT, SORIA 
BUR AS LY ABE ORE FE, ARU, ARERR, ABA MT AVA SRS 
Ay, Th Reta AT E., ARCHER IN AREF C Fo MRR 
过 ， 我 为 何 有 如 此 感叹 ， 请 仔细 阅读 本 书 。 只 要 你 有 一 扣 中 学 的 数学 基 
础 ， 看 得 恒 中 文 ， 而 对 计算 义 有 那么 一 后 兴趣 ， 你 束 可 以 读 异 本 书 。 地 辑 
的 基础 其 实 很 便 时 。 





在 这 里 ， 要 符 列 感谢 人 民 邮 电 出 版 社 的 领导 和 编辑 ， 感 谢 他 们 对 我 的 
信任 和 理解 ， 把 这 样 一 本 好 书 交 给 我 翻译 。 同 时 我 也 要 感谢 他 们 为 本 书 的 
出 版 投入 了 巨大 的 热情 ， 可 谓 哎 心 源 血 。 没 有 他 们 的 耐心 和 帮助 ， 本 书 不 
可 能 顺利 付 样 。 

Aer mek, EE, AMSARER Zh, Bea 
解 并 不 音 指正 。 恋 者 如 有 任何 意见 和 建议 ， 请 将 反馈 信息 发 达到 邮箱 
cilin2046@gmail.com， 不 胜 感 激 。 
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于 加 拿 大 涯 太 华 大 学 


RAR E REN Las 


THER, AKAR SRS RENN OL, FRR EA il BE EAL ASE o 


ARMA hi E FED LA LF a FE ES, Bo, He 
HATIK, EAR RTT EA a A IEH a ai BR o 


相反 ， 我 们 希望 能 够 目 动 化 执行 更 具有 挑 成 性 、 相 对 复杂 的 任务 ， 如 
对 相似 的 照片 进行 分 组 、 从 健康 细胞 中 识别 出 病变 细胞 ， 其 至 是 来 一 盘 优 
雅 的 国际 象棋 博大 。 这 些 任 务 似乎 需要 人 关 的 智能 才能 完成 ， 或 全 少 需要 
人 类 思维 中 的 示 种 更 深层 次 、 更 神秘 的 能 为 来 完成 ， 而 在 诺 如 计算 乾 这 样 
简单 的 机 硕 中 是 找 不 到 这 种 能 力 的 。 


具有 次 似 人 类 壤 能 的 机 器 是 一 个 如 此 诱 人 且 强 大 的 想法 ， 我 们 的 文化 
IERP T AIRES, GOS A] Pe a E oe Se (2001: A Space 
Odyssey》 中 的 HAL 9000 GHIA BAH HEA AIR 2a AR S RO 
VE Fr PENA aE? (Terminator) ”机 器 人 以 及 电视 剧 《Knight 
Rider》 中 具有 冷静 个 性 的 话 车 子 KITT 汽 车 。 


1997 年 ， 国 际 象 棋 卫 免 世 窃 冠 车 、 国 际 象 棋 特 级 大 师 加 里 : 卡 斯 昌 罗 夫 
饿 IBM“ 深 蝗 ” 计 算 机 击败 ， 我 们 在 庆 视 这 一 历史 性 成 就 的 同时 ， 也 担心 机 
ar E BERII JI o 


我 们 如 此 淘 望 入 能 机 帮 ， 以 至 于 一 些 人 受到 了 诱惑 ， 使 用 欺骗 手段 ， 
例如 ， 吴 名 昭著 的 国际 象棋 机 器 Turkey 仅 仅 是 使 用 一 个 人 隐藏 在 机 柜 内 而 
区 | 


aE, 全 


or oe ee T . 
att eee eq 
a d -r - = = 


四 站 Pa a k 
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人 工 和 鲁能 的 新 黄金 时 代 


在 20 世 纪 50 年 代 ， 人 工 锁 能 这 门 学 科 正 式 成 过， 此 时 ， 人 类 雄心 劲 
勃 ， 对 人 工 智 能 抱 着 非常 乐观 的 态度 。 最 初 的 成 功 ， 让 人 们 看 到 了 计算 机 
可 以 进行 简单 的 博弈 、 证 明定 理 ， 因 此 ， 一 些 人 相信 ， 在 十 年 左右 的 时 间 
内 ， 人 类 级 别 的 人 工 智 能 将 会 出 现 。 


但 是 ， 实 践 证 明 : 发 展 人 工 镶 能 困难 重重 ， 进 展 一 度 俘 浏 不 前 。20 世 
纪 70 年 代 ， 人 们 在 学 术 界 挑 成 人 工 镶 能 的 雄心 下 到 了 毁灭 性 的 打击 。 接 下 
Ks MATE SAS BE CZ Be, IA TCE BE SB KIDS o 


Nam AUK YS EI, ATE I ALO, AERA PAA BES SELLA, 
UN. AS AREER EKRA E EE 


在 一 段 时 间 内 ， 人 类 未 能 独具匠心 ， ARF, 更 进一步 ， EAN Lae 
能 探索 带 出 其 既定 轨迹 。 在 此 之 后 ， 研 究 人 员 灵 光一 现 ， 和 尝试 通过 复制 生 
物 大 脑 工 作 的 机 制 ， 来 构建 人 工大 脑 ? 真正 的 大 脑 具 有 神经 元 ， 而 不 是 他 
务 |]。 真 正人 脑 具 有 更 优雅 更 有 机 的 推理 ， 而 不 是 冰冷 的 、 非 黑 即 日 的 、 
绝对 的 传统 算法 。 


蜜蜂 或 铅 子 大 脑 的 简单 性 与 其 能 够 执行 复杂 任务 的 巨大 反 甜 ， 这 一 点 
司 发 了 科学 家 。 束 古 这 零点 几 元 的 大 脑 ， 看 起 来 就 能 够 做 许多 事情 ， 如 导 
航 、 适 应 风 疝 、 识 别 食 物 和 捕食 者 、 快 速 地 决定 是 战斗 还 是 逃跑 。 当 今 的 
计算 机 拥有 大 量 的 廉价 资源 ， 能 够 模仿 和 改进 这 些 大 脑 吗 ? — H RERA 
有 950 000 个 神经 元 ， 今 天 的 计算 机 ， 具 有 G 比 特 和 T 比 特 的 资源 ， 能 够 表 
MIF ERRERA? 


但 是 ， 如 朱 使 用 传统 的 方法 来 求解 问题 ， 那 么 即便 计算 机 拥有 巨大 的 
nn 也 无 法 实现 鸟 和 蜜蜂 使 用 相对 微小 的 大 脑 所 做 的 事 
情 。 


受到 仿生 智能 计算 的 驱动 ， 神 经 网 络 (Netural Network) 出 现 了 ， 并 
日 神 经 网 络 从 此 成 为 在 人 工 乔 能 领域 中 最 强大 、 最 有 用 的 方法 之 一 。 今 
天 ， 谷 歌 的 Deepmind 以 神经 网 络 为 基础 ， 能 够 做 一 些 非常 奇妙 的 事情 ， 如 
让 计算 机 学习 如 何 玩 视频 游戏 ， 并 且 在 人 类 历史 上 第 一 次 在 极其 变化 多 问 
的 围棋 博 列 中 击败 了 世界 级 的 大 师 。 如 今 ， 神 经 网 络 已 经 成 为 了 日 剃 技术 
的 核心 ， 例 如 上 日 动车 牌号 个 识别 、 解 码 手写 的 邮政 编码 。 


Label is 7 Label rs 2 ‘ Label is 1 ‘ Label is 0 à Label is 4 
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本 书 所 探讨 的 就 是 神经 网 络 ， 让 你 了 解 神经 网 络 如 何 工 作 ， 帮 你 制作 
出 目 己 的 神经 网 络 ， 训 练 神 经 网 络 来 识别 人 类 的 手写 字符 。 如 果 使 用 传统 
的 方法 来 执行 这 个 任务 ， 那 么 将 是 非常 困难 的 。 


本 书 的 目标 读者 


本 书生 为 了 任何 希望 了 解 什 么 是 神经 网 络 的 读者 而 编写 的 ， 古 为 了 任 
何 布 望 设计 和 使 用 目 己 神经 网 络 的 读者 而 编号 的 ， 也 是 为 了 任何 布 户 锯 上 略 
EE amen 
编写 的 。 


本 书 的 目标 读 着 ， 不 是 数学 或 计算 机 科学 方面 的 专家 。 你 不 需要 任何 
专业 知识 或 超出 中 学 的 数学 能 力 。 


如 果 你 可 以 进行 加 、 减 、 乘 、 除 运 拭 ， 那 么 你 束 可 以 制作 目 己 的 神经 
网 络 。 我 们 使 用 的 最 困难 运算 是 梯度 泗 算 〈gradient calculus) ， 但 是 ， 我 
们 会 对 这 一 概念 加 以 说 明 ， 使 尽 可 能 多 的 读者 能 够 理解 这 个 概念 。 


有 兴趣 的 读者 ， 不 妨 以 本 书 为 起 点 ， 进 一 步 探索 激动 人 心 的 人 工 特 
能 。 一 旦 你 掌握 了 神经 网 络 的 基本 知识 ， 你 就 可 以 将 神经 网 络 的 核心 思想 
运用 到 许多 不 同 的 问题 中 。 


教师 可 以 使 用 本 书 ， 优 雅 从 容 地 解释 神经 网 络 ， 解 释 神经 网 络 的 实 
现 ， 激 起 学 生 对 神经 网 络 的 热情 ， 或 励 学 生 使 用 短 短 的 几 行 代码 制作 出 能 
够 学 习 的 人 工 知 能。 本 书 中 的 代码 已 经 通过 了 测试 ， 能 够 在 物美 价 廉 的 计 
ce elles ee an wee ae 
JL. 


当 我 年 少 的 时 候 ， 我 难以 理解 这 些 功 能 强大 但 神秘 的 神经 网 络 是 如 何 
工作 上 的。 当时， 我 多 么 希望 存在 一 本 关 似 的 书籍 。 我 在 各 种 书籍 、 电 影 和 
杂志 中 看 到 关于 神经 网 络 的 只 言 睫 语 ， 但 是 当时 ， 我 只 能 找到 一 些 艰深 难 
懂 的 教科 书 ， 而 这 些 教科 书 是 为 那些 对 数学 及 其 术语 非常 了 解 的 专家 级 别 
的 人 而 编写 的 。 


我 曾经 布 望 有 人 能 够 以 让 中 学 生理 解 的 方式 同 我 解释 神经 网 络 ， 满 中 
我 的 好 奇 心 。 而 这 融 是 我 与 作 本 书 的 目的 。 


我 们 将 会 做 些 什 么 
在 这 本 书 中 ， 我 们 将 扬帆 起 航 ， 制 作 神经 网 络 ， 识 别 手 写 数字 。 


我 们 将 从 非 简 单 的 预测 神经 元 开始 ， 然 后 逐步 改进 它们 ， 下 到 达到 
它们 的 极限 。 顺 看 这 条 路 ， 我 们 将 做 一 些 短暂 的 俘 留 ， 学 习 一 些 数学 概 
念 。 我 们 需要 这 些 数学 概念 来 理解 神经 网 络 如 何 学 习 和 预测 问题 的 解 。 


我 们 将 浏 斋 一 些 数学 中 四 ， 如 函数 、 人 简单 的 线性 分 类 夫 、 友 代 细 化 、 
算 阵 乘法 、 梯 度 读 算 、 通 过 樟 度 下 降 进 行 优化 ， 长 至 是 几何 旋转 。 但 是 ， 
所 有 这 些 效 学 概念 将 会 以 一 种 非常 优雅 清晰 的 方式 进行 解释 ， 并 且 除 了 人 简 
单 的 中 学 数学 知识 以 外 ， 谈 者 完全 不 需要 任何 前 所 知识 或 专业 技术 。 


一 旦 我 们 成 功 制作 了 第 一 个 神经 网 络 ， 我 们 将 带 着 这 种 思想 ， 在 各 个 
方面 使 用 这 种 思想 。 例 如 ， 我 们 无 需 诉 诸 额 外 的 训练 数据 ， 束 可 以 使 用 图 
像 处 理 来 改善 机 硕 学 习 。 我 们 将 一 额 神经 网 络 的 思想 ， 看 看 它 是 合 揭示 了 
任何 深刻 的 见解 一 一 很 多 书籍 并 没有 问 你 展示 神经 网 络 的 工作 机 制 。 


当 我 们 循序 渐进 制作 神经 网 络 时 ， 我 们 还 将 学 习 一 种 非常 简单 、 有 用 
和 流行 的 编程 语言 Python。 同 样 ， 你 不 需要 有 任何 先前 的 编程 经 验 。 





我 们 将 如 何 做 到 这 点 


本 书 的 主要 目的 是 同 尽 可 能 多 的 人 揭示 神经 网 络 背 后 的 概念 。 这 章 味 
着 我 们 将 一 直 从 让 人 们 感 党 早 服 和 熟悉 的 地 方 开始 介绍 这 些 概念 。 我 们 将 
采用 简单 的 步 又， 小 步 前 进 ， 从 一 些 安全 的 地 方 开始 构建 知识 ， 直 到 我 们 
Ce 
东西。 


为 了 使 事情 义 可 能 顺畅 方便 ， 我 们 将 抵制 诱惑 ， 将 讨论 范围 严格 限定 
为 制作 神经 网 络 所 必需 的 知识 。 一 些 读者 可 能 会 对 一 些 有 趣 的 题 外 话 感 兴 


趣 ， 如 下 你 是 这 样 的 读者 ， 那 么 我 们 或 励 你 对 神经 网 络 进行 更 广泛 的 研 
Fo 


本 书 不 会 探讨 所 有 可 能 的 神经 网 络 优化 和 改进 的 方法 。 虽 然 在 实践 
中 ， 存 在 很 多 种 优化 和 改进 的 方法 ， 但 十 这 些 内 容 与 本 书 的 核心 目的 痛 巡 
而 驰 ， 本 书 只 是 想 用 一 种 尽 可 能 简单 易 履 、 人 简洁 明了 的 方式 介绍 神经 网 络 
的 基本 岂 路 。 

我 们 有 意 将 本 书 分 成 3 章 : 


。 在 第 1 间 中 ， 我 们 将 如 清风 指 面 般 ， 一 完 在 简单 的 神经 网 络 中 所 用 的 数 


学 思想 。 我 们 有 意 不 介绍 任何 计算 机 编程 知识 ， 以 避免 喧 宾 村主 地 干 
扰 了 本 书 的 核心 思想 。 


。 在 第 2 草 中 ， 我 们 将 学 习 足 以 实现 目 己 的 神经 网 络 的 Python 知识 。 我 们 
将 训练 神经 网 络 ， 识 别 手 与 数字 ， 并 且 会 测试 神经 网 络 的 性 能 。 
在 第 3 章 中 ， 我 们 将 进一步 了 解 徐 单 的 神经 网 络 ， 这 超出 了 了 解 基本 神 
经 网 络 知 识 的 范畴 ， 但 是 我 们 这 样 做 只 是 为 了 获得 一 些 乐 趣 。 我 们 将 
尝试 一 些 想法 ， 进 一 步 改善 神经 网 络 的 性 能 ， 我 们 将 观察 已 受训 练 的 
神经 网 络 内 部 ， 看 看 我 们 征 个 理解 神经 网 络 所 学 习 到 的 知识 ， 征 合理 
解 和 神经 网 络 是 如 何 做 出 决定 进行 回 舍 的。 


我 们 使 用 的 软件 工具 都 是 免费 开源 的 ， 你 无 需 文 付 任何 费用 。 你 也 不 
需要 一 台 昂 贯 的 计算 机 制作 自己 的 神经 网 络 。 本 书 中 的 所 有 代码 都 已 经 经 
过 了 测试 ， 可 以 在 价 廉 物美 的 树 每 派 Zero 上 运行 。 在 本 书 的 末尾 ， 附 录 B 
介绍 了 如 何 让 你 的 树 琶 铂 准备 就 绪 。 


如 末 在 数学 和 计算 机 科学 方面 ， 我 没 能 给 你 一 种 真正 的 兴 和 否 和 和 售 喜 的 
感 党， 那么 这 是 我 的 失败 。 

如 采 在 通过 制作 自己 的 人 工 镶 能、 模拟 人 类 大 脑 的 学 习 能 力 的 过 程 
中 ， 我 没 能 同 你 展示 出 中 学 数学 和 人 简单 的 计算 机 方法 可 以 变 得 如 此 出 神 入 
化 ， 那 么 这 是 我 的 失败 。 


如 林 我 没 能 给 你 信心 和 愿 己 ， 进 一 步 探索 那 无 比 丰 蜗 的 人 工 和 鲁能 领 
域 ， 那 么 这 和 是 我 的 失败 。 


我 欢迎 任何 改善 本 书 的 反 饿 。 请 通过 电子 邮件 地 址 
makeyourownneuralnetwork@ gmail.com kH @myoneuralnet -5 REK Z - 


你 也 可 以 在 异步 社区 Cwww.epubit.com) ， 找 到 本 书页 面 并 下 载 示例 
代码 。 在 这 个 网 页 中 ， 也 有 中 译本 经 过 确认 的 勤 误 。 


第 1 草 ”神经 网 络 如 何 工作 


“从 你 身边 所 有 的 小 事情 中 ， 找 到 灵感 。” 


1.1 KARK, TAMK 
计算 机 的 核心 部 分 就 是 计算 器 。 这 些 计算 器 做 算术 非常 快 。 


对 于 执行 与 计算 硕 相 匹配 的 任务 而 言 ， 如 对 数字 进行 相 加 算出 销售 
额 、 运 用 百分比 算出 税收 、 绘 制 现 存 数 据 的 图 表 ， 这 是 很 不 错 有 的 。 


即使 是 在 计算 机 上 观看 网 络 电视 太 目 或 听 流 巡 体 的 首 乐 ， 也 只 涉及 一 
次 义 一 座 地 执行 镜 持 的 算术 指令 。 在 互联 网 上 通过 省 过 将 1 和 0 输送 到 计算 
机 ， 重 建 视 频 帧 ， 所 使 用 的 算术 也 不 会 比 你 在 中 学 所 做 的 加 法 运算 复杂 ， 
这 一 点 也 许 令 你 颐 为 怀 奇 。 


计算 机 可 以 以 相当 快 的 速度 ， 在 1 秒 钟 内 进行 4 位 数 甚 至 10 位 数 的 相 
加 ， 这 也 许 给 人 留 下 了 深刻 的 印象 ， 但 是 这 不 是 人 工 贸 能。 人 类 可 能 友 现 
目 己 很 难 快速 地 进行 加 法 运算 ， 然 而 进行 加 法 运算 的 过 程 不 需要 太 多 的 入 
芝 。 简 单 次 来 ， 这 只 要求 计算 机 拥有 遵循 基本 指令 的 能 力 ， 而 这 正 是 计算 
机 内 的 电子 禹 件 所 做 的 事情 。 

现在 ， 让 我 们 转 a 到 事情 的 痛 面 ， 掀 开 计 算 机 的 后 牌 。 

让 我 们 观察 下 面 的 图 片 ， 看 看 你 能 认 出 图 片 中 包 合 哪些 内 容 。 

你 和 我 都 看 到 了 人 腔 、 猪 和 树 的 图 乒 ， 并 识别 出 了 这 些 内 容 。 事 实 
上 ， 我 们 可 以 以 非 间 高 的 精确 度 快 速 地 做 到 这 一 点 。 在 这 方面 ， 我 们 通 钊 
不 会 出 错 。 

我 们 可 以 处 理 图 像 中 所 包含 的 相当 大 量 的 信息 ， 并 且 可 以 成 功 地 识别 


图 像 中 有 哪些 内 容 。 但 这 种 任务 对 计算 机 而 言 ， 并 不 是 那么 容易 ， 实 际 
上 ， 古 相当 困难 的 。 


快速 地 对 成 干 上 万 的 大 数字 进行 乘法 运算 


在 一 大 群 人 的 照 厂 中 查找 面孔 





我 们 怀疑 图 像 识 列 需 要 人 类 智能 ， 而 这 是 机 带 所 缺乏 的 。 无 论 我 们 造 
出 的 机 费 多 么 复杂 和 和 强大， 它们 依然 不 是 人 类 。 但 是 ， 由 于 计算 机 速度 非 
意 快 ， 并 且 不 知 疲 众 ， 我 们 恰恰 希望 计算 机 能 更 好 地 进行 求解 图 像 识别 这 
闫 问题 。 人 工 入 能 所 探讨 的 一 切 问题 吏 是 解决 这 种 次 型 的 难题 。 

当然 ， 计 算 机 将 永远 使 用 电子 右 件 制造 ， 因 此 研究 人 工 和 镶 能 的 任务 就 
是 找到 新 方法 或 新 算法 ， 使 用 新 的 工作 方式 ， 壬 试 求解 这 类 相对 困难 的 问 
时。 即使 计算 机 不 能 完美 地 解决 这 些 问 题 ， 但 是 我 们 只 要 求 计算 机 足够 出 
色 ， 给 入 们 留 下 一 种 印象 ， 让 人 先 得 这 是 智能 在 起 作用 ， 


Bs 


KBEN 


。 有 些 任务 ， 对 传统 的 计算 机 而 言 很 容易 ， 对 人 类 而 言 却 很 难 。 例 如 ， 对 数 百 万 个 数字 进行 
乘法 运算 。 


。 另 一 方面 ， 有 些 任 务 对 传统 的 计算 机 而 言 很 难 ， 对 人 类 而 言 却 很 容易 。 例 如 ， 从 一 群 人 的 
照 厂 中 识 列 出 面孔 。 





1.2 ”一 合 简 单 的 预测 机 


让 我 们 先 从 构建 超级 简单 的 机 邢 开 始 。 

轧 象 一 下 ， 一 合 基本 的 机 融 ， 接 受 了 一 个 问题 ， 做 了 一 些 “ 忠 考 ”， 并 
输出 了 一 个 管 案 。 与 我 们 在 上 和 面 的 例子 中 进行 的 操作 一 样 ， 我 们 从 眼睛 输 
入 图 片 ， 使 用 大 脑 分 析 场 景 ， 并 得 出 在 场景 中 有 哪些 物体 的 结论 。 


下 面 融 是 这 合 机 硕 看 起 来 的 样子 。 


问题 





们 使 用 更 答 当 的 词语 来 东 容 这 个 过 才 程 。 


输入 





一 台 计 算 机 接受 了 一 A a 
的 内 容 详 细 说 明了 这 一 点 。 一 人 台 计 算 机 对 “3x42” 的 输入 进行 处 理 ， 这 种 处 理 
也 许 是 将 乘法 运算 SR ede end yt er 





你 可 能 会 想 “ 这 也 没什么 了 不 起 的 吧 ! ”， 没 关系。 这 里 ， 我 们 使 用 和 何 


单 和 熟悉 的 例子 来 引出 此 后 我 们 将 看 到 的 更 有 趣 的 神经 网 络 的 概念 。 
让 我 们 稍微 增加 一 点 复杂 度 。 
试想 一 下 将 千 米 转化 为 英里 的 一 台 机 器 ， 如 下 所 示 。 


千 米 daa 





现在 想象 一 下 ， 我 们 不 知道 千 米 和 英里 之 间 的 转换 公式 。 我 们 所 知道 
的 就 是 ， 两 者 之 间 的 关系 是 线性 的 。 这 意味 着， 如 果 瑞 里 数 加 倍 ， 那 么 表 
示 相 同 距 离 的 千 米 数 也 是 加 僧 的 。 这 征 非常 直观 的 。 如 条 这 都 不 是 真理 ， 
那么 这 个 宇宙 融 太 让 人 匪夷所思 了 。 


干 米 和 瑞 里 之 间 的 这 种 线性 天 系 ， 为 我 们 提供 了 这 种 神秘 计算 的 线 
索 ， 即 它 的 形式 应 该 是 “ 瑞 里 = 和 干 米 xC”， 其 中 C 为 常数 。 现 在 ， 我 们 还 不 知 
站 这 个 负数 C 是 多 少 。 


我 们 拥有 的 唯一 其 他 的 线索 是 ， 一 些 正确 的 干 米 /器 里 岂 配 的 数值 对 示 
例 。 这 些 示例 就 像 用 来 验证 科学 理论 的 现实 世界 观察 实验 一 样 ， 显 示 了 世 
界 的 真实 情况 。 





我 们 应 该 做 些 什么 ， 才 能 计算 出 缺失 的 沼 数 C 呢 ?我 们 信 手 挡 来 一 个 
随机 的 数值 ， 让 机 融 试 一 试 ! 让 我 们 试看 使 用 C = 0.5， 看 看 会 发生 什么 情 
IL o 


100 





XE, RIJS: 瑞 里 = 干 米 x<C， 其 中 干 米 为 100， 当 前 ， 我 们 猪 测 C 为 
0.5。 


这 台 机 器 得 到 50 英 里 的 答案 。 


曲 ， 鉴 于 我 们 随机 选择 了 C = 0.5， 这 种 表现 还 算 不 错 。 但 是 ， 编 号 为 2 
的 真实 示例 告诉 我 们 ， 答 案 应 该 是 62.137， 因 此 我 们 知道 这 是 不 准确 的 。 


我 们 少 了 12.137。 这 是 计算 结果 与 我 们 列 出 的 示例 真实 值 之 间 的 弄 
值 ， RR EU: 


误 大 值 = 真实 值 - 计 算 值 
= 62.137-50 


= 12.137 


| 一 一 >> 计算 的 英里 数 


100 50 





正确 的 英里 数 
62.137 


TRAE 
12.137 


下 一 步 ， 我 们 将 做 些 什 么 呢 ? RIIE S, IFAM Seb. R 
们 无 需 对 这 种 误 关 感到 失望 ， 我 们 可 以 使 用 这 个 误 和 过 ， 指 寻 我 们 得 到 第 二 
个 、 更 好 的 C 的 猜测 值 。 


再 看 看 这 个 误差 值 。 我 们 少 了 12.137。 由 于 千 米 转换 为 英里 的 公式 是 
线性 的 ， 即 英里 = 和 干 米 xC， 因 此 我 们 知道 ， 增 加 C 束 可 以 增加 输出 。 


让 我 们 将 C 从 0.5 稍 微 增 加 到 0.6， 观 察 会 及 生 什 么 情况 


现在 ， 由 于 将 C 设 置 为 0.6， 我 们 得 到 了 天 里 = 和 干 米 xC = 100x0.6 = 60, 
这 个 答案 比 先 前 50 的 答案 更 好 。 我 们 取得 了 明显 的 进步 


现在 ， 误 差 值 变 得 更 小 了 ， 为 2.137。 这 个 数值 甚至 可 能 是 我 们 很 乐于 
接受 的 一 个 误差 但 。 


”一 > 计算 的 英里 数 


60 





正确 的 英里 数 


l _ 
4 


这 里 ， 很 重要 的 一 点 是 ， ne eee 村 如 何 改变 C 的 
值 。 我 们 布 望 输 出 值 从 50 增 大 一 ， 因 此 我 们 稍微 增加 了 C 的 值 ， 


我 们 不 必 答 试 使 用 代数 法 计算 出 C 需 要 改变 的 确切 量 ， 让 我 们 继续 使 
用 这 种 方法 改进 C 值 。 如 朱 你 还 不 能 被 我 次 服 ， 还 是 认为 计算 出 确切 的 答 
案 才 够 侧 单 ， 那 么 ， 请 记 住 ， 更 多 有 趣 的 问题 是 没有 一 个 简单 的 效 学 公 忆 
将 输出 和 输入 关联 起 来 的 。 这 不是 我 们 需要 请 如 神经 网 络 这 样 相对 成 熟 而 
复 末 的 方法 的 原因 。 


让 我 们 再 次 重复 这 个 过 程 。 输 出 值 60 还 是 太 小 了 。 我 们 再 次 微调 C， 
将 其 从 0.6 调 到 0.7。 


计算 的 英里 数 


100 70 





正确 的 类 里 数 
62.137 





误差 。” 
-7.863 


HS! WAR, ARE SONI. JWR 
2.137， 现 在 的 误 兰 值 为 -7.863。 这 个 负 号 告诉 我 们 ， 我 们 不 是 不 足 ， 而 是 
超 调 了 。 请 记 住 上 面 的 公式 ， 误 差 值 等 于 真实 值 减 去 计算 值 。 


如 此 说 来 ，C = 0.6 比 C = 0.7 好 得 多 。 我 们 可 以 就 此 结束 这 个 练习 ， 欣 
然 接 受 C = 0.6 带 来 的 小 小 误差 。 但 是 ， 让 我 继续 向 前 走 一 小 段 距离 。 我 们 
为 什么 不 使 用 一 个 较 小 的 量 ， 微 调 C， 将 C 从 0.6 调 到 0.61 呢 ? 









计算 的 英里 数 
6] 


英里 = | 
千 米 x 0.61 





100 


正 硝 的 英里 数 


=! o 
误差 。” 


1.137 


这 比 先 前 得 到 的 答案 要 好 得 多 。 我 们 得 到 输出 值 61， 比 起 正确 答案 
62.137， 这 只 差 了 1.137。 


因此 ， 最 后 的 这 次 竹 试 宕 诉 我 们 ， 应 该 适度 调整 C 值 。 如 果 输 出 值 越 


来 越 接 近 正 确 答案 ， 即 误 委 信 越 来 越 小 ， 那 么 我 们 束 不 要 做 那么 大 的 调 
整 。 使 用 这 种 方式 ， 我 们 就 可 以 避免 像 先 前 那样 得 到 超 调 的 结果 。 


同样 ， 读 者 无 十 为 如 何 使 用 确切 的 方式 拭 出 C 值 而 分 心 ， 请 继续 关注 
这 种 持续 细 化 误差 值 的 想法 ， 我 们 建议 将 修正 值 取 为 误差 值 的 百分比 。 直 
WE, Melk: 大 误 焉 意味 看 需要 大 的 修正 值 ， 小 误 天 意味 看 我 们 只 
南 要 小 小 地 微调 C 的 信 。 


无 论 你 是 售 相 信 ， 我 们 刚 唱 所 做 的 ， 丈 是 走马 观 伦 地 浏览 了 一 通 神 经 
网 络 中 学 习 的 核心 过 程 。 我 们 训练 机 研 ， 使 其 输出 人 越 来 越 接 近 正 确 的 答 


条 。 


这 值得 读者 停 下 来 ， 思 考 一 下 这 种 方法 ， 我 们 并 未 像 在 学 校 里 求解 数 
学 和 科学 问题 时 所 做 的 一 样 一步 到 位 ， 精 确 求解 问题 。 相 反 ， 我 们 答 试 得 
到 一 个 答案 ， 并 多 次 改进 答案 ， 这 十 一 种 非常 不 同 的 方法 。 一 些 人 将 这 种 


方法 称 为 迁 代 ， 意 思 是 持续 地 、 一 点 一 点 地 改进 答案 。 
TBE FA 


。 所 有 有 用 的 计算 机 系统 都 有 一 个 输入 和 一 个 输出 ， 并 在 输入 和 输出 之 间 进 行 示 种 类 型 的 计 
算 。 神 经 网 络 也 是 如 此 。 

。 当 我 们 不 能 精确 知道 一 些 事情 如 何 运 作 时 ， 我 们 可 以 答 试 使 用 模型 来 估计 其 运作 方式 ， 在 
模型 中 ， 包 括 了 我 们 可 以 调整 的 参数 。 如 琳 我 们 不 知道 如 何 将 干 米 转换 为 天 里 ， 那 么 我 们 
可 以 使 用 线性 函数 作为 模型 ， 并 使 用 可 调节 的 梯度 值 作为 参数 。 
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在 上 岁 中 ， 你 可 以 清楚 地 看 到 两 群 小 虫 。 毛 虫 细 而 长 ， 峰 虫 招 而 短 。 

你 还 记得 给 定 干 米 数 ， 预 测 占 试图 找 出 正确 的 瑞 里 数 这 个 示例 吗 ? 这 
台 预 测 禹 的 核心 有 一 个 可 调节 的 线性 函数 。 当 你 绘制 输入 输出 的 天 系 图 
时 ， 线 性 函数 输出 的 是 直线 。 可 调 参数 C 改变 了 直线 的 笠 率 。 

如 末 我 们 在 这 幅 图 上 画 上 一 条 直线， 会 及 生 什 么 情况 呢 ? 


里 然 我 们 不 能 使 用 先前 将 干 米 数 转换 成 瑞 里 数 时 的 同样 方式 ， 但 是 我 
们 也 许可 以 使 用 直线 将 不 同性 质 的 事物 分 开 。 


花园 里 小 虫 的 长 度 与 宽度 
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同一 侧 ， 因 此 上 述 的 直线 并 没有 做 到 这 一 点 。 
让 我 们 再 次 调整 料 率 ， 符 试 不 同 的 直线， 看 看 会 及 生 什 么 情况 。 
这 一 次 ， 这 条 直线 真是 一 无 是 处 ! 它 根本 没有 将 两 种 小 虫 区 分 开 来 。 
让 我 们 再 试 一 次 : 


花园 里 小 虫 的 长 度 与 宽度 
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这 条 直线 好 多 了 ! 这 条 和 耻 线 整齐 地 将 庄 虫 与 毛虫 区 分 开 来 了 。 现 在 ， 
我 们 可 以 用 这 条 和 下 线 作 为 小 虫 的 分 类 占 。 


我 们 假设 没有 未 经 肥 现 的 其 他 类 型 的 小 虫 ， 现 在 来 说 ， 这 样 假 设 古 没 
有 问题 的 ， 因 为 我 们 只 是 布 星 说 明 构建 一 台 简 单 的 分 关 规 的 四 路。 


设想 一 下 ， 下 一 次 ， 计 算 机 使 用 机 右手 篇 抓 起 一 只 新 的 小 虫 ， 测 量 其 
SARER Aa E BY EH ETA ad FP, Rh BIE ASS AE R 
看 看 下 图 ， 你 可 以 看 到 未 知 的 小 虫 位 于 直线 之 上 ， 因 此 这 走 一 条 毛 

虫 。 这 种 分 关 非 利和 窗 单 ， 但 是 非常 强大 ! 


分 类 未 知 小 虫 


长 度 





宽度 


我 们 已 经 看 到 了 ， 在 简单 的 预 训 需 中 ， 如 何 便 用 线性 函数 对 先前 未 知 
的 数据 进行 分 类 。 


但 是 ， 我 们 忽略 了 一 个 至 天 重要 的 因素 。 我 们 如 何 得 到 正确 的 笠 座 
呢 ? 我 们 如 何 改 进 不 能 很 好 划分 这 两 种 小 虫 的 分 界线 呢 ? 


这 个 问题 的 众 采 人 处 于 神经 网 络 学 习 的 核心 地 市 。 让 我 们 继续 看 下 一 
Wo 
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我 们 希望 训练 线性 分 类 器 ， 使 其 能 够 正确 分 类 球 虫 或 毛虫 。 在 1.3 节 的 
图 中 ， 根 据 观 察 ， 我 们 知道 要 做 到 这 一 点 ， 人 简单 说 来 ， 束 是 要 调整 分 界线 
的 斜 深 ， 使 其 能 够 基于 小 虫 的 客 度 和 长 度 将 两 组 点 划分 开 来 。 

我 们 如 何 做 到 这 一 点 呢 ? 

我 们 无 需 研 究 一 些 最 前 治 的 数学 理论 。 让 我 们 通过 尝试 摸 着 石头 过 
河 ， 使 用 这 种 方式 ， 我 们 可 以 更 好 地 了 解数 学 。 

我 们 确实 需要 一 些 可 以 借鉴 的 实例 。 为 了 简单 化 这 项 工作 ， 下 表 显 示 
了 两 个 实例 。 





我 们 有 宽度 为 3.0 和 长 度 为 1.0 的 一 只 小 虫 ， 我 们 知道 这 是 味 虫 。 我 们 还 
有 长 度 较 长 〈 为 3.0) 、 宽 度 较 小 〈 为 1.0) 的 一 只 小 虫 ， 这 是 一 条 毛虫 。 


我 们 知道 这 组 实例 是 正确 的 。 这 些 实例 帮助 我 们 调整 分 类 函数 的 余 
率 。 用 来 训练 预测 器 或 分 类 器 的 真实 实例 ， 我 们 称 为 训练 数据 。 


让 我 们 绘制 出 这 两 个 训练 数据 实例 。 通 过 观察 数字 列表 或 数字 表格 古 
不 容易 理解 和 感知 数据 的 ， 而 可 视 化 数据 有 助 于 我 们 做 到 这 一 后 。 


分 类 小 虫 的 训练 数据 
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让 我 们 使 用 一 条 随机 的 分 界线 开始 我 们 的 讨论 。 回 顾 一 下 ， 在 和 干 米 转 
换 为 下 里 预测 右 的 实例 中 ， 我 们 有 一 个 调整 了 参数 的 线性 函数 。 此 处， 由 
于 分 界线 是 一 条 直线 ， 因 此 我 们 也 可 以 进行 相同 的 处 理 : 
y =Ax 
由 于 严格 来 说 ， 此 处 的 直线 不 是 一 台 了 预测 右 ， 因 此 我 们 有 意 使 用 名 称 y 
和 x ， 而 不 使 用 名 称 长 上 度 和 宽度 。 与 先前 我 们 将 干 米 转换 为 天 里 不 一 样 ， 
这 条 直线 不 将 宽度 转换 为 长 度 。 相 反 ， 它 是 一 条 分 界线 ， 是 一 合 分 类 丹 。 
你 可 能 还 注意 到 ，y = Ax 比 完 整 的 直线 形式 y =Ax + BEH., RAIZ 
意 让 花园 中 小 虫 的 场景 尽 可 能 简单 。 简 单 说 来 ， 非 零 值 B 意 味 着 直线 不 经 
过 坐标 原点 。 但 是 在 我 们 的 场景 中 ，B 不 为 零 并 未 有 任何 用 途 。 
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让 我 们 答 试 从 A = 0.25 开 始 ， 分 界线 为 y = 0.25x 。 在 与 训练 数据 的 同一 
张 图 中 ， 我 们 绘制 这 条 直线， 观察 一 下 这 坪 一 种 什么 情况 。 


分 类 小 虫 的 训练 数据 
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无 需 任 何 计算 ， 我 们 可 以 观察 到 直线 y = 0.25x 不 是 一 台 很 好 的 分 类 
器 。 这 条 直线 未 将 两 种 类 型 的 小 虫 区 分 开 来 。 由 于 球 虫 也 处 在 直线 之 上 ， 
因此 我 们 不 能 说 “如 果 小 虫 在 直线 之 上 ， 则 这 是 一 条 毛虫 ”。 

直观 上 ， 我 们 观察 到 需要 将 直线 同上 移动 一 点 ， 但 是 我 们 要 抵制 诱 
或 ， 不 能 通过 观察 网 就 男 出 一 条 合适 的 直线 。 我 们 希望 能 够 找到 一 种 可 重 
复 的 方法 ， 也 束 是 用 一 系列 的 计算 机 指令 来 达到 这 个 目标 。 计 算 机 科学 家 
称 这 一 系列 指令 为 算法 (algorithm) 。 

让 我 们 观察 第 一 个 训练 样本 数据 : TEEEAS.OMKRE A109. WRK 
们 使 用 这 个 实例 测试 函数 y =Ax ， 其 中 x 为 3.0， 我 们 得 到 : 


y =0.25*3.0= 0.75 

在 这 个 函数 中 ， 我 们 将 参数 A 设置 为 初始 随机 选择 的 值 0.25， 表 明 对 于 

宽度 为 3.0 的 小 虫 ， 其 长 度 应 为 0.75。 但 是 ， 由 于 训练 数据 告诉 我 们 这 个 长 
上 度 必须 为 1.0， 因 此 我 们 知道 这 个 数字 太 小 了 。 


现在 ， 我 们 有 了 一 个 误差 值 。 正 如 先前 将 千 米 转换 为 英里 的 预测 器 实 
例 一 样 ， 我 们 可 以 利用 这 个 误差 值 来 搞 清楚 如 何 调整 参数 A。 


但 是， 在 我 们 调整 参数 A 之 前 ， 让 我 们 考虑 y 应 该 是 什么 值 。 如 来 y 为 


1.0， 那 么 二 线 殉 会 恰好 经 过 味 虫 所 在 的 坐标 点 (xX ，y ) = (3.0，1.0) 。 
这 是 一 个 非常 微妙 的 点 ， 但 是 实际 上 上， 我们 并 不 希望 出 现 这 种 情况 。 我 们 
硕 望 直 线 处 于 这 个 点 上 方 。 为 什么 呢 ? 因为 我 们 希望 所 有 球 虫 的 点 处 于 直 
线 下 方 ， 而 不 是 在 直线 上 。 这 条 直线 需要 成 为 味 虫 和 毛虫 之 间 的 一 条 分 界 
线 ， 而 不 是 给 定 小 虫 宽 度 、 预 测 小 虫 长 度 的 一 个 预测 器 。 


因此 ， 当 x = 3.0 时 ， 我 们 和 葡 试 使 用 y =1.1 的 目标 值 。 这 只 是 比 1.0 大 一 
点 的 数 。 我 们 也 可 以 选择 1.2 甚 至 1.3， 但 是 我 们 不 希望 使 用 10 或 100 这 样 较 
大 的 数字 ， 因 为 这 很 可 能 会 使 得 直线 在 味 虫 和 毛虫 上 方 ， 导 致 这 个 分 类 融 
没有 一 点 作用 。 

Ak, WEW HME REEN 

误 下 值 = (期 望 目标 值 -实际 输出 值 ) 
这 样 
E = 1.1-0.75 = 0.35 


让 我 们 暂 集 下 来 提醒 一 下 上 日 己 ， 将 误差 值 、 期 望 的 日 标 值 和 计算 值 的 
意义 在 图 上 表示 出 来 。 


期 望 的 值 


y=1.1 
计算 的 值 
y=0.75 
过 4 
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现在 ， 我 们 需要 对 这 个 E 做 些 什么 ， 才 能 更 好 地 指导 我 们 调整 参数 A 
呢 ? 这 是 一 个 重要 的 问题 。 


在 这 个 任务 中 ， 让 我 们 退 一 步 再 想 一 想 。 我 们 和 希望 用 y PO NEN IRA 


值 ， 来 捅 清楚 参数 A 所 需 改变 的 值 。 要 做 到 这 一 点 ， 我 们 需要 知道 两 者 的 
关系 。A 与 E 是 如 何 关 联 的 呢 ? WREAK, ABA Beet ay DA EE 
解 更 改 一 个 值 如 何 影 啊 另 一 个 值 。 
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y =Ax 

我 们 知道 ，A 的 初始 猜测 值 给 出 了 错误 的 y B, y 值 应 该 等 于 训练 数据 
给 定 的 值 。 我 们 将 正确 的 期 户 值 t 称 为 目标 值 。 为 了 得 到 t 值 ， 我 们 需要 稍 
做 调整 A 的 值 。 数 学 家 使 用 增 量 符 与 A 表示 “微小 的 变化 量 *。 下 面 我 们 将 这 
个 变化 量 写 出 来 : 

t = (A+ AA)x 


让 我 们 在 图 中 将 其 夯 出 来 ， 以 使 其 更 容易 理解 。 在 图 中 ， 你 可 以 看 到 
新 的 斜率 CA+AA) 。 


=(A+AA)x 


请 记 住 ， 误 大 值 E 古 期 望 的 正确 值 与 基于 A 的 猜测 值 计 算出 来 的 值 之 间 
的 弄 值 。 也 就 古 说 ，FE 等 于 t-y 。 


我 们 将 这 个 过 程 写 出 来 ， 这 样 就 清楚 了 : 


t -y = (A + AA)x - Ax 


展开 表达 陈 并 化 简 : 
E =t -y = (A+ AA)x - Ax 
E = (AA)x 
这 是 多 么 美妙 啊 ! RAMEE SAA TER — A al IARI ROU 
此 简单 ， 以 至 于 我 认为 这 是 错 的 ， 但 实际 上 这 征 正确 的 。 无 论 如 何 ， 这 种 
简单 的 关系 让 我 们 的 工作 变 得 相对 容易 。 


我 们 很 容易 沉迷 于 代数 ， 或 由 于 代数 而 分 心 。 让 我 们 提醒 目 己 ， 我 们 
所 和 希望 的 是 摆脱 这 些 代 数 ， 用 一 些 简明 的 语言 达到 我 们 的 目标 。 

根据 误差 值 E， 我 们 和 希望 知道 需要 将 A 调 整 多 少 ， 才 能 改进 直线 的 斜 
率 ， 得 到 一 人 台 更 好 的 分 类 器 。 要 做 到 这 一 点 ， 我 们 只 要 重新 调整 上 一 个 方 
程 ， 将 AA 算 出 : 


AA= E/x 
MLA A) AMER- ESR a IAT. RiT AE 
下 值 E， 将 所 得 到 的 AA 作 为 调整 分 界线 冬 紊 A 的 量 。 
让 我 们 开始 吧 一 一 更 新 最 初 的 斜率 。 


误差 值 为 0.35，x 为 3.0。 这 使 得 AA = E / x = 0.35 / 3.0 = 0.1167。 这 意 
味 着 当前 的 A = 0.25 需 要 加 上 0.1167。 这 也 意味 着 ， 修 正 后 的 A 值 为 (A 
+AA) ， 即 0.25 + 0.1167 = 0.3667。 当 A=0.3667 时 ， 使 用 这 个 A 值 计算 得 到 
的 y 值 为 1.1， 正 如 你 所 期 望 的 ， 这 束 是 我 们 想 要 的 目标 仁 。 


Ma! 我 们 做 到 了 ! 我 们 找到 了 基于 当前 的 误 兰 值 调整 参数 的 方法 。 
让 我 们 继续 前 进 吧 ! 


现在 ， 我 们 已 经 完成 了 一 个 实例 训练 ， 让 我 们 从 下 一 个 实例 中 学 习 。 
IERT, RATES EMEX Ax = 1.0 和 y = 3.0。 


当 线 性 函数 使 用 更 新 后 的 A = 0.3667， 并 把 x = 1.0 代 入 到 线性 函数 中 
时 ， 让 我 们 观察 会 发 生 什 么 情况 。 我 们 得 到 y = 0.3667 * 1.0 = 0.3667。 这 与 
训练 样本 中 y = 3.0 相 去 其 远 。 


基于 与 先前 同样 的 推理 ， 我 们 希望 直线 不 要 经 过 训练 数据 ， 而 是 稍微 
高 于 或 低 于 训练 数据 ， 我 们 将 所 需 的 目标 值 设 置 为 2.9。 这 样 ， 毛 虫 的 训练 
样本 束 在 卫 线 上 廊 ， 而 个 是 在 且 线 之 上 。 误 到 值 EF 为 2.9-0.3667= 2.5333。 


比 起 先前 ， 这 个 误 革 值 更 大 ， 但 是 如 来 仔细 想 想 ， 运 今 为 止 ， 我们 只 
使 用 一 个 时 一 的 训练 样本 对 线性 函数 进行 训练 ， 很 明显 ， 这 使 得 卫 线 偏 问 
于 这 个 里 一 的 样本 。 


与 我 们 先前 所 做 的 一 样 ， 让 我 们 再 次 改进 A。AA 为 E/x， 即 2.5333/ 
1.0 = 2.5333。 这 意味 着 较 新 的 A 为 0.3667 + 2.5333 = 2.9。 这 也 意味 着 ， 对 
于 x = 1.0， 图 数 得 出 了 2.9 的 答案 ， 这 正 是 所 期 望 的 值 。 


这 个 训练 量 有 扣 大 了 ， 因 此 ， 让 我 们 再 次 暂停 ， 观 察 我 们 已 经 完成 的 
内容 。 下 图 显示 出 了 初始 百 线 、 问 第 一 个 训练 样本 学 习 后 的 改进 直线 和 问 
第 二 个 训练 样本 学 习 后 的 最 终 百 线 。 


最 终 改 进 的 直线 
t pe? Oy 
3 am 9) ~“ 
2 
th 改进 后 的 直线 
Z y= 0.3667 x 
gan 
A 
T © 
b 
ae j a a ee a 
| 2 3 
He HE 


等 等 ， 这 是 什么 情况 啊 ! 看 着 这 幅 图 ， 我 们 似乎 并 没有 做 到 让 直线 以 
我 们 所 希望 的 方式 倾斜 。 这 条 直线 没有 整齐 地 划分 出 标 虫 和 毛虫 。 


好 了 ， 我 们 理解 了 先前 的 诉求 。 改 进 直 线 ， 以 得 出 各 个 所 圾 的 y 值 。 


这 种 想法 有 什么 错误 呢 ? 如 果 我 们 继续 这 样 操作 ， 使 用 各 个 训练 数据 
样本 进行 改进 ， 那 么 我 们 所 得 到 的 定 ， 最 终 改 进 的 百 线 与 最 后 一 次 训练 样 
本 非常 匹配 。 和 实际 上 ， 最 终 改 进 的 卫 线 不 会 顾及 所 有 先前 的 训练 样本 ， 而 
是 抛弃 了 所 有 先前 训练 样本 的 学 习 结 果 ， 只 是 对 最 近 有 的 一 个 实例 进行 了 学 


如 何 解 决 这 个 问题 呢 ? 


其 实 很 简单 ! 在 机 娠 学 习 中 ， 这 是 一 个 重要 的 思路 。 我 们 应 该 进行 适 
及 改进 (moderate〉。 也 束 是 说 ， 我 们 不 要 使 改进 过 于 激烈 。 我 们 采用 AA 
几 分 之 一 的 一 个 变化 值 ， 而 不 是 采用 整个 AA， 欧 满 激 情 地 跳跃 到 每 一 个 新 
的 A 信 。 使 用 这 种 方法 ， 我 们 小 心 齐 蛋 地 癌 训 练 样本 所 指示 的 方 癌 移动 ， 
保持 和 匈 前 训练 迭代 周期 中 所 得 到 的 值 的 一 部 分 。 在 先前 相对 简单 的 千 米 转 
换 为 两 里 的 预测 如 中 ， 我 们 束 已 经 观察 到 这 种 有 节制 的 调整 ， 我 们 小 心 炊 
加 地 调整 参数 C， 使 其 只 是 实际 误 天 值 的 几 分 之 儿 。 


这 种 目 我 所 制 的 调整 ， 还 市 来 了 一 个 非 第 强大 、 行 之 有 效 的 “ 副 作 
用 ”。 当 训 绎 数据 本 吴 不 能 确信 为 完全 正确 并 且 包 舍 在 现实 世界 测量 中 普 允 
出 现 的 错误 或 噪声 这 两 种 情况 时 ， 有 制 的 调整 可 以 抑制 这 些 错误 或 噪声 
的 影响 。 这 种 方法 使 得 错误 或 噪声 得 到 了 调解 和 缓和 。 


好 吧 ， 让 我 们 重新 使 用 这 种 方法 。 但 是 这 一 次 ， 在 改进 公 却 中 ， 我 们 
将 添加 一 个 调节 系数 : 


AA=L (E/x) 


调节 系数 通常 被 称 为 学 习 率 (learning rate) ， 在 此 ， 我 们 称 之 为 。 
我 们 束 挑 L = 0.5 作 为 一 个 合理 的 系数 开始 学 习 过 程 。 简 单 说 来 ， 这 束 意 味 
看 我 们 只 更 刹 原 更 新 值 的 一 半 。 


再 一 次 重复 上 述 过 程 ， 我 们 有 一 个 杨 始 值 A = 0.25。 使 用 第 一 个 训练 样 
本 ， 我 们 得 到 y = 0.25 * 3.0 = 0.75， 期 望 值 为 1.1， 得 到 了 误差 值 0.35。AA= 
L (E/x) =0.5*0.35/3.0=0.0583。 更 新 后 的 A 值 为 0.25 + 0.0583 = 
0.3083. 


IAEA SAAT BUIZREE A, Æx = 3.0 时 ， 得 到 y = 0.3083 * 3.0 = 
0.9250。 现 在 ， 由 于 这 个 值 小 于 1.1， 因 此 这 条 直线 落 在 了 训练 样本 错误 的 
一 边 ， 但 是 ， 如 果 你 将 这 视 为 后 续 的 众多 调整 步骤 的 第 一 步 ， 则 这 个 结果 
不 算 太 差 。 与 初始 直线 相 比 ， 这 条 直线 确实 向 正确 方向 移动 了 。 


我 们 继续 使 用 第 二 个 训练 数据 实例 ，x = 1.0。 使 用 A = 0.3083， 我 们 得 
到 y = 0.3083 * 1.0 = 0.3083。 上 所 需 什 为 2.9， 因 此 误差 值 是 2.9-0.3083= 
2.5917。AA=L(E/x)=0.5*2.5917/1.0=1.2958。 当 前 ， 第 二 个 更 新 的 值 
A 等 于 0.3083 + 1.2958 = 1.6042。 


让 我 们 再 次 观察 初始 二线 、 改 进 后 的 卫 线 和 最 终 耻 线 ， 观 察 这 种 有 市 
制 的 改进 是 售 在 吴 虫 和 毛虫 区 城 之 间 征 个 得 到 了 更 好 的 分 界线 。 





第 二 次 调节 改进 的 直线 
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结果 真 的 很 不 错 ! 


即使 使 用 这 两 个 简单 的 训练 样本 ， 利 用 市 有 调节 学 习 速 率 的 一 种 相对 
Epe hee aes PQA HAE ERR] S AR ARF EY oo Ft ey Ax, K 
A 为 1.6042。 


让 我 们 先 放 下 已经 取得 的 成 束 。 我 们 已 经 实现 了 目 动 化 的 学 习 方 法 ， 
虽然 方法 非 钊 简单 ， 但 里 有 成 效 地 对 奉 干 实例 进行 分 类。 


这 太 棒 了 |! 
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是 说 ， 我 们 知道 了 在 何 种 程度 上 调整 斜率 ， 可 以 消除 输出 误差 值 。 

。 使 用 朴素 的 调整 方法 会 出 现 一 个 问题 ， 即 改进 后 的 模型 只 与 最 后 一 次 训练 样本 最 匹 
Ac, “有 效 地 ”忽略 了 所 有 以 前 的 训练 样本 。 解 决 这 个 问题 的 一 种 好 方法 是 使 用 学 习 率 ， 调 
节 改 进 速率 ， 这 样 单一 的 训练 样本 残 不 能 主导 整个 学 习 过 程 。 

。 来 日 真实 世界 的 训练 样本 可 能 充满 噪声 或 包 仿 错误。 适度 更 新 有 助 于 限制 这 些 错误 样本 的 
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1.5 ARR PAR te D AE DAD fi o] ped 


到 目前 为 止 ， 我们 展示 了 位 早 的 预测 问 和 分 类 各 。 正 如 我 们 刚才 所 观 
凤 到 的 ， 这 些 预 测 桌 和 分 类 占 ， 接 受 了 菏 个 输入 进行 一 些 计 算 ， PA j E 
本 一 个 容 条 。 昌 然 这 些 预测 上 融和 分 类 占 行 之 有 效 ， 却 不 足以 求解 一 些 更 有 
趣 的 问题 ， 而 我 们 希望 应 用 神经 网 络 来 求解 这 些 问 题 。 


此 处 ， 我 们 将 使 用 一 个 简单 而 鲜明 的 实例 ， 来 说 明 线 性 分 类 帮 的 局 限 
性 。 我 们 为 什么 要 说 明 线 性 分 类 占 的 局 限 性 ， 而 不 且 接 跳 转 a 到 讨论 神经 网 
络 呢 ? 原因 区 是 ， 神 经 网 络 的 一 个 重要 的 设计 特征 来 源 于 对 这 个 局 限 性 的 
理解 ， 因 此 信 得 伦 一 些 时 间 来 讨论 这 个 局 限 性 。 


RIJA EHER. MWE, RIRN KEER. xA 
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使 用 布尔 AND 函 数 。 只 有 在 两 个 条 件 痢 为 真 的 情况 下 ， 布 尔 AND 函 数 才 为 
真 。 如 果 只 有 一 个 条 件 为 真 ， 那 么 AND 函 数 为 假 。 因 此 ， 如 果 “ 我 饿 了 ?”， 
但 是 “我 还 没有 吧 政 沫 ， 我 吏 不 能 吧 布 了 ”。 


同样 ， 如 果 我 们 说 “如 果 这 是 周末 ，OR (或 ) 这 是 你 的 年 假 ， 那 么 你 
可 以 在 公园 里 玩 ”， 这 里 ， 我 们 使 用 了 布尔 OR 函数 。 如 果 这 些 条 件 有 任何 
一 个 为 真 或 全 部 为 真 ， 那 么 布尔 OR 函数 为 真 。 这 无 需 像 布尔 AND 函 数 一 
样 ， 必 须 两 个 条 件 都 为 真 。 因 此 ， 即 使 “这 不 是 周末 ”， 但 是 “我 已 经 申请 了 
年 假 ， 我 一 样 可 以 去 公园 玩 ”。 

我 们 回顾 首次 见 到 的 函数 ， 我 们 将 这 些 困 数 视 为 机 噩 ， 这 些 机 需 接 受 
了 一 些 输入 ， 做 了 一 些 工作 ， 并 输出 答案 。 布 尔 馆 辑 图 数 通 稼 需要 两 个 输 
入 ， 并 输出 一 个 答案 。 





输入 值 A 


逻辑 函数 





输入 值 B sT 


计算 机 退 常 使 用 数字 1 表示 真 ， 使 用 数字 0 表示 假 。 下 列 的 表格 使 用 这 
种 相对 简洁 的 表示 方法 ， 基 于 输入 值 A 和 输入 值 B 的 所 有 组 合 ， 表 示 了 逻辑 
ANDAIOR ZX. 
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CRA Mines), RAAB ABI, ANDRA AE. M 
样 ， 你 也 可 以 看 到 ， 只 要 A 和 B 有 一 个 为 真 时 ，OR 就 为 真 。 


在 计算 机 科学 中 ， 布 尔 逻 辑 函 数 非 第 重要 。 事 实 上 ， 最 早 的 电子 计算 
机 束 古 使 用 执行 这 些 逻 辑 疯 数 的 做 电路 构 千 的。 即使 是 算术 ， 也 十 使 用 这 
些 本 喘 很 简单 的 布尔 馆 辑 函 数 的 电路 组 合 来 完成 的 。 


想象 一 下 ， 不 论 数 据 是 否 由 布尔 逻辑 函数 控制 ， 使 用 简单 的 线性 分 类 
名 束 可 以 从 训练 数据 中 学 习 。 对 于 试图 在 一 些 观 察 和 为 一 些 观察 之 间 找 a 到 
因 末 关系 或 相关 关系 的 科学 家 而 言 ， 这 征 很 目 然 也 是 很 有 用 的 一 种 工具 。 
HU Æ FRAND FH) 逻 度 局 于 35 摄 氏 度 时 ， 有 更 多 碟 疾 病人 吗 ? 
当 这 两 个 条 件 《〈 布 尔 OR) 有 任何 一 个 条 件 为 真 时 ， 有 更 多 汇 疾 病人 吗 ? 


请 看 下 图 ， 这 幅 图 在 坐标 系 中 喧 示 了 两 个 输入 值 A 和 B 与 逆 辑 函数 的 关 
系 。 这 幅 图 显示 ， 只 有 妆 两 个 输入 均 为 真 时 ， 即 具有 值 1 时 ， 输 出 才 为 


真 ， 使 用 绿色 表示 。 人 否则 输出 为 假 ， 显 示 为 红色 。 
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(0,0) (1,0) 


你 还 可 以 看 到 一 条 下 线 ， 将 绿色 区 域 和 红色 区 域 划 分 开 来 。 正 如 我 们 
先前 完成 的 演示 ， 这 条 直线 是 线性 分 关 夏 可 以 学 习 到 的 一 个 线性 函数 。 


在 这 个 例子 中 ， 数 字 计 算 没 有 本 质 上 的 人 不同， 因此 我 们 就 不 像 先前 一 
样 进行 数字 计算 了 。 


事实 上 ， 有 许多 不 同 的 分 界线 ， 也 可 以 很 好 地 对 区 域 进 行 划分 ， 但 
是 ， 主 要 的 一 点 是 ， 对 于 形 如 y = ax +b 的 简单 的 线性 分 类 器 ， 确 实 可 以 学 
习 到 布尔 AND 函 数 。 


现在 ， 观 察 使 用 闫 似 的 方 却 绘 制 出 的 布尔 DR 函数 : 


逻辑 AND 
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(0,0) (1,0) 


此 时 ， 由 于 仪 有 后 〈0,0〉 对 应 于 输入 A 和 B 同 时 为 假 的 情况 ， 因 此 只 
有 这 个 点 是 红 色 的 。 


所 有 其 他 的 组 合 ， 至 少 有 一 个 A 或 B 为 真 ， 因 此 输出 为 真 。 这 幅 图 的 妙 
处 在 于 ， 它 清楚 地 表明 了 线性 分 类 器 也 可 以 学 习 到 布尔 OR 函数 。 


还 有 男 一 种 布尔 函数 称 为 XOR， 这 是 eXclusive OR (Faw) 的 缩写 ， 
这 种 函数 只 有 在 A 或 B 仅 有 一 个 为 真 但 两 个 输入 不 同时 为 真 的 情况 下 ， 才 输 
oe 也 束 是 说 ， 当 两 个 输入 都 为 假 或 都 为 真 时 ， 输 出 为 假 。 下 表 总 结 





现在 ， 观 宗 这 个 函数 的 图 ， 其 中 网 格 节点 上 的 输出 已 经 男 上 颜色 了 。 


逻辑 AND 
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这 是 一 个 挑战 ! RIPA ie A A RH EN EZ SAT A E 
区 域 划 分 开 来 。 


事实 上 ， 对 于 布尔 XOR 函 数 而 言 ， 不 可 能 使 用 一 条 单一 的 百 线 成 功 地 
将 红色 区 域 和 匠 色 区 域 划分 开 来 。 也 就 是 说 ， 如 果 出 现 的 是 由 XOR 函 数 文 
配 的 训练 数据 ， 那 么 一 个 简单 的 线性 分 类 右 无 法 学 习 到 布尔 XOR 孙 数 。 


我 们 已 经 说 明了 简 蛙 的 线性 分 类 融 的 一 个 主要 限制 。 如 果 不 能 用 一 条 
和 耳 线 把 根本 性 的 问题 划分 开 来 ， 那 么 简 持 的 线性 分 类 可 是 没有 用 处 的 。 

在 一 些 任务 中 ， 根 本 性 问题 不 是 线性 可 分 的 ， 也 就 是 说 早 一 的 一 条 耻 
线 于 事 无 补 ， 而 我 们 希望 神经 网 络 能 够 解决 此 类 的 任务 。 

因此 ， 我 们 需要 一 种 解决 的 办 法 。 

好 在 解决 的 办 法 很 容易 ， 下 图 使 用 两 条 生 线 对 不 同 的 区 域 进 行 划 分 。 
这 暗示 了 一 种 解决 的 办 法 ， 也 就 是 说 ， 我 们 可 以 使 用 多 个 分 类 棵 一 起 工 
作 。 这 是 神经 网 络 的 核心 思想 。 你 可 以 想象 ， 多 条 直线 可 以 分 离 出 弄 第 形 
状 的 区 域 ， 对 各 个 区 域 进行 分 类 。 
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归 目 然 来 观察 动物 的 大 脑 ， 这 些 动 物 的 大 脑 司 及 了 神经 网 络 的 方法 。 
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1.6 ”神经 元 一 大 目 然 的 计算 机 僚 


此 前 ， 我 们 兽 衣 示 ， 虽 然 一 些 计算 机 拥有 大 量 的 电子 计算 元 件 、 巨 大 
的 存储 空间 ， 并 且 这 些 计 算 机 的 运行 频率 比 内 和 荐 这 、 软 绢 旨 的 生物 大 脑 要 
快 得 多 ， 但 是 即使 是 像 镶 子 一样 小 的 大 脑 ， 其 能 力也 远 远 大 于 这 些 电子 计 
算 机 ， 这 使 得 科学 家 们 对 动物 的 大 脑 迷 惑 不 解 。 


请 读者 将 注意 力 转向 架构 的 不 同 。 传 统 的 计算 机 按照 严格 的 串 行 顺 
序 ， 相 当 准 确 上 其 体 地 处 理 数据 。 对 于 这 些 冰 冷 坚 便 的 计算 机 而 言 ， 不 存在 
模糊 性 或 不 确定 性 。 而 为 一 方面 ， 动 物 的 大 脑 表 和 面 上 看 起 来 以 慢 得 多 的 市 
到 运 行 ， 却 似乎 以 并 行 方式 处 理 信 写 ， 模 糊 性 是 其 计算 的 一 种 特征 。 


让 我 们 来 观察 生物 大 脑 中 的 基本 单元 一 一 神经 元 。 


神经 元 





虽然 神经 元 有 各 种 形式 ， 但 是 所 有 的 神经 元 都 是 将 电信 和 号 从 一 病 传 输 
到 万 一 病 ， 治 痢 轴 突 ， 将 电信 号 从 树 突 传 到 树 突 。 然 后 ， 这 些 信 号 从 一 个 
神经 元 传递 到 万 一 个 神经 元 。 这 吏 是 身体 感知 光 、 声 、 触 压 、 热 等 信号 的 
机 制 。 来 目 专 门 的 感觉 神经 元 的 信号 沿 看 俐 经 系统 ， 传 输 到 大 脑 ， 而 大 脑 
本 号 主要 也 是 由 俐 经 元 构成 的 。 


下 面 是 由 西班牙 神经 学 家 在 1899 年 绘制 的 包子 大 脑 的 神经 元 草图 。 你 
可 以 看 到 关键 部 件 一 — 树 突 和 终端 。 

我 们 需要 多 少 个 神经 元 才能 执行 相对 复杂 的 有 趣 任务 呢 ? 

一 般 说 来 ， 能 力 非 常 强 的 人 类 大 脑 有 大 约 1000 亿 个 神经 元 ! 一 只 果 蝇 
拥有 约 10 万 个 神经 元 ， 能 够 飞翔 、 砚 食 、 躲 避 危 险 、 寻 找 食物 以 及 执行 许 
多 相当 复杂 的 任务 。10 万 个 神经 元 ， 这 个 数字 恰好 落 在 了 现代 计算 机 试图 


复制 的 范围 内 。 一 只 线虫 仅仅 具有 302 个 神经 元 ， 与 今天 的 数字 计算 机 资源 
相 比 ， 简 下 就 古 微 乎 其 做 ! 但 是 一 只 线虫 能 够 完成 一 些 相当 有 用 的 任务 ， 
而 这 任务 对 于 尺寸 大 得 多 的 传统 计算 机 程序 而 言 却 难以 完成 。 





那么 ， 其 中 有 什么 秘密 吗 ? 生物 的 大 脑 要 慢 得 多 ， 并 且 比 起 现代 计算 
机 ， 其 计算 元 件 相对 较 少 ， 但 是 为 什么 生物 的 大 脑 却 有 如 此 能 力 呢 ? 大 脑 
的 全 部 功能 〈 例 如 意识 ) 仍 是 一 个 恋 ， 但 是 关于 神经 元 能 够 使 用 不 同方 式 
lalallala A 


因此 ， 我 们 来 看 看 一 个 神经 元 是 如 何 工作 的 。 它 接受 了 一 个 电 输 入 ， 
得 出 万 一 个 电信 吉 。 这 看 起 来 ， 与 我 们 先前 所 观察 的 分 闫 或 预测 的 机 硕 一 
人 


因此 ， 我 们 可 以 与 以 前 一 样 ， 将 神经 元 表示 为 线性 函数 吗 ? 虽然 这 是 
个 好 主意 ， 但 古人 不 可 以 这 样 做 。 生 物 神 经 元 与 位 单 的 线性 函数 不 一 样 ， 不 
能 简单 地 对 输入 做 出 的 啊 应 ， 生 成 翘 出 。 也 融 是 说 ， 它 的 得 出 不 能 采用 这 
种 形式 : 输出 =《 第 数 * 和 输入 ) +《 也 许 态 一 种 数 ) 。 


观 穴 表 明 ， 神 经 元 不 会 立即 反应 ， 而 是 会 抑制 输入 ， 直 到 输入 增强 ， 
强大 到 可 以 触发 输出 。 你 可 以 这 样 认 为 ， 在 产生 输出 之 前 ， 输 入 必须 到 达 
一 个 国 值 。 就 像 水 在 杯 中 HEIKI W SH, AA Pelt. AWE, 
这 是 有 道理 的 一 神经 元 不 硕 望 传递 微小 的 噪声 信号 ， 而 上 只 是 传递 有 意识 
的 明 最 信号 。 下 图 说 明了 这 种 思想 ， 只 有 输入 超过 了 国 值 (threshold) ， 
足够 接 通 电路 ， 才 会 产生 输出 信号。 








标 度 盘 


国 值 





虽然 这 个 函数 接 有 党 了 输入 人 信号， 产生 了 输出 信号 ， 但 是 我 们 要 将 东 种 
称 为 激活 函数 的 国 值 考 碟 在 内 。 在 数学 上 ， 有 许多 激活 函数 可 以 达到 这 样 
的 效果 。 一 个 简单 的 阶 路 函数 可 以 实现 这 种 效果 。 


输出 


~ > WA 
国 值 


你 可 以 看 到 ， 在 输入 值 较 小 的 情况 下 ， 和 输出 为 零 。 然 而 ， 一 旦 输入 这 
到 疯 值 ， 输 出 整 一 路 而 起 。 上 其 有 这 种 行为 的 人 工 神 经 元 就 像 一 个 真正 的 生 
物 神经 元 。 科 学 家 所 使 用 的 术语 实际 上 非常 形象 地 搬 述 了 这 种 行为 ， 他 们 
W HATA BIEN, AHR TOA T o 


RATE AE eA RA. FEARAIS PRR ANS PHBL (sigmoid 
function) 。 这 个 函数 ， 比 起 冷冰冰 、 硬 邦 邦 的 阶 跃 函数 要 相对 平 清 ， 这 使 
得 这 个 函数 更 自然 、 更 接近 现实 。 上 自然 界 很 少 有 冰冷 尖锐 的 边 绿 ! 





输入 


我 们 将 继续 使 用 这 种 平滑 的 S 形 函数 制作 神经 网 络 。 虽 然 人 工 镶 能 研 
完 人 员 还 使 用 其 他 外 形 类 似 的 函数 ， 但 是 S 函 数 简 单 ， 并 且 事 实 上 非常 第 
见 ， 因 此 S 函 数 对 我 们 非常 重要 。 


5 函数 ， 有 时 也 称 为 逻辑 孙 数 : 


1 


I- L+e*¥ 


这 个 表达 式 和 企 看 来 比较 可 怕 ， 其 实 也 是 “纸老虎 ”"。 字 母 e 是 数学 常数 
2.71828 ...... ， 这 是 一 个 非常 有 趣 的 数 子 ， 出 现在 各 种 数学 和 物理 学 领域 ， 
我 使 用 省 略 号 的 原因 是 ， 这 是 一 个 无 限 不 循环 小 数 。 这 样 的 数字 有 一 个 奇 
特 的 名 字 超越 数 (transcendental number) 。 这 很 有 趣 ， 很 好 玩 吧 ， 但 
是 出 于 我 们 的 目的 ， 你 可 以 把 它 当 作 2.71828。 上 面 那个 看 起 来 有 点 可 怕 的 
痕 数 先 对 输入 x 取 反 ， 计 算出 e 的 -x 众 方 ， 然 后 将 所 得 到 的 结果 加 1， 得 到 1 
+ex; 最 后 ， 对 整个 结果 取 倒 数 ， 也 束 是 1 除 以 lt+e ~， 做 为 输出 值 y 给 
出 。 这 束 是 上 和 面 那 个 看 起 来 有 点 可 怕 的 函数 ， 它 对 输入 的 x 进行 操作 ， 然 
后 给 出 输出 值 y 。 因 此 ， 这 没有 那么 可 怕 。 


出 于 兴趣 ， 由 于 任何 数 的 0 识 方 都 等 于 1， 因 此 当 x 为 0 时 ，e 为 1。 因 
此 y 变 成 了 1/ (1+1) ， 为 W2。 此 时 ， 基 本 S 形 函数 在 y = YIN, Sty 轴 进 行 
切 分 。 


我 们 使 用 这 种 S 函 数 ， 而 不 使 用 其 他 可 以 用 于 神经 元 输出 的 S 形 函数 ， 
还 有 力 一 个 非常 午 要 的 原因 ， 那 就 是 ， 这 个 S 隙 数 比 起 其 他 S 形 函数 计算 起 
来 容易 得 多 ， 在 后 面 的 实践 中 ， 我 们 会 看 到 为 什么 。 


让 我 们 回 到 神经 元 ， 并 思 竹 我 们 如 何 建 借 人 工 神 经 。 


读 痢 要 认识 到 的 第 一 件 事 悄 是 生物 神经 元 可 以 接受 计 多 输入 ， 而 个 仪 
仅 是 一 个 输入 。 刚 才 ， 我 们 观 勾 了 布尔 旬 辑 机 带 有 两 个 输入 ， 因 此 ， 有 多 
个 输入 的 想法 并 不 新 鲜 ， 并 非 不 同 寻 入 。 


对 于 所 有 这 些 得 入 ， 我 们 该 做 些 什么 呢 ? 我 们 只 需 对 它们 进行 相 加 ， 
得 到 最 终 足 和 和， 作为 函数 的 输入 ， 然 后 输出 结果 。 这 实际 上 反映 了 神经 
| 下 疼 说 明了 这 种 组 合 输入 ， 然 后 对 最终 输入 总 和 使 用 国人 
JE o 





总 和 输入 值 | SARAM 2 





如 果 组 合 信 号 不 够 蝇 大 ， 那 么 S 国 值 函 数 的 效果 是 抑制 输出 信号 。 如 
果 总 和 x 足够 大 ， SPR BS MAE KAZE TE o 有 趣 的 是 ， 如 果 只 有 其 中 
一 个 输入 足够 大 ， 其 他 输入 都 很 小 ， 那 么 这 也 足够 激发 神经 元 。 更 重要 的 
是 ， 如 果 其 中 一 些 输入 ， 蛙 个 而 言 一 般 大 ， LLANE TREX, 这 样 由 于 信号 
aT 超过 国 值 ， 那 么 神经 元 也 能 激发 。 这 给 谈 者 市 来 了 一 种 下 
a” 这 些 神 经 元 也 可 以 进行 一 些 相 对 复杂 、 在 某 种 意义 上 有 点 模 
AAT 


树 突 收集 了 这 些 电 信和 号， 将 其 组 合 形成 更 强 的 电信 号 。 如 琳 信 号 足够 


a, REI, HARUM KE Ss, WAAR, BAA, Rea Sa Tee 
给 下 一 个 神经 元 的 树 突 。 下 图 显示 了 使 用 这 种 方式 连接 的 奉 干 神经 元 。 


ps © ae 
需要 注意 的 一 点 是 ， 每 个 神经 元 接受 来 日 其 之 前 多 个 神经 元 的 输入 ， 
并 且 如 果 神 经 元 被 激发 了 ， 它 也 同时 提供 信号 给 更 多 的 神经 元 。 


将 这 种 目 袋 形式 复制 到 人 人造 异型 的 一 种 方法 是 ， 构 建 多 层 神 经 元 ， 
一 层 中 的 神经 元 都 与 在 其 前 后 层 的 神经 元 互相 连接 。 下 图 详细 摘 述 了 这 种 


FA 相 
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神经 元 连接 


你 可 以 看 到 三 层 神经 元 ， 每 一 层 有 三 个 人 工 神经 元 或 节点 。 你 还 可 以 
看 到 每 个 节点 都 与 前 一 层 或 后 续 层 的 其 他 每 一 个 节点 互相 连接 。 


这 真是 太 棒 了 ! 但 是 ， 这 看 起 来 很 酷 的 体系 架构 ， 哪 一 部 分 能 够 执行 
学 习 功 能 呢 ? 针对 训练 样本 ， 我 们 应 该 如 何 调整 做 出 反应 呢 ? 有 没有 和 先 
前 线性 分 类 硕 中 的 和 料 率 关 似 的 参数 供 我 们 调整 呢 ? 


最 明显 的 一 点 就 是 调整 市 点 之 间 的 连接 强度 。 在 一 个 节 扣 内， 我 们 可 
以 调整 输入 的 总 和 或 5 国 值 函数 的 形状 ， 但 是 比 起 人 简单 地 调整 节操 之 间 的 
连接 强度 ， 调 整 S 阀 值 函 数 的 形状 要 相对 复 末 。 


如 末 相 对 简单 的 方法 可 以 工作 ， 那 么 请 坚持 这 种 方法 ! 下 图 再 一 次 显 
In S ERTER BERRES MER EER ARRE. BURNE 
Kaa > MBCA BORAT 


BCA, ian BARRE PANET Ss SI A) ae CRN Rtn) 。 简 单 
BLK, MEW ,3 IWATA EA FEN ASH fa SAAR 


EE, NEw 1 减 小 或 放大 市 点 1 传 圳 给 下 一 层 市 点 2 的 信 写 。 为 了 评 细 说 明 
这 种 思路 ， 下 图 突出 显示 了 第 一 层 和 第 二 层 之 间 的 两 条 连接 。 








层 ] 层 2 层 3 
Wir A ; Wiz A 
W W, Pas 
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MRE BEA FOP EY BE EH REI i, TAT ZO Zi Ja J EN BE 
一 个 神经 元 与 所 有 其 他 层 的 神经 元 互相 连接 ， 并 且 你 其 全 可 以 提出 各 种 创 
造 性 有 的 方式 将 这 些 神经 元 连接 起 来 。 我 们 不 米 用 创造 性 的 方式 将 神经 元 连 
接 起 来 ， 原 因 有 两 点 ， 第 一 是 这 种 一 致 的 完全 连接 形式 事实 上 可 以 相对 容 
易 地 编码 成 计算 机 指令 ， 第 二 是 神经 网 络 的 学 习 过 程 将 会 弱化 这 些 实际 上 
不 需要 的 连接 《〈 也 束 是 这 些 连接 的 权重 将 趋 近 于 0) ， 因 此 对 于 解决 特定 任 
务 所 需 最 小 数量 的 连接 元 余 几 个 连接 ， 也 无 伤 大 雅 。 





输入 "a A PZN 输出 


说 起 这 个 ， 我 们 的 意思 是 什么 呢 ? 这 意味 着 ， 随 着 神经 网 络 学 习 过 程 
的 进行 ， 神 经 网 络 通过 调整 优化 网 络 内 部 的 链接 权重 改进 输出 ， 一 些 权重 
可 能 会 变 为 零 或 接近 于 零 。 零 或 几乎 为 零 的 权重 意味 着 这 些 链接 对 网 络 的 
贡献 为 零 ， 因 为 没有 传递 信号 。 零 权重 意味 着 信号 乘 以 零 ， 结 果 得 到 夫 ， 
因此 这 个 链接 实际 上 是 被 断 开 了 。 


a; 


天 键 点 


。 虽然 比 起 现代 计算 机 ， 生 物 大 脑 看 起 来 存储 空间 少 得 多 ， 运 行 速度 比较 慢 ， 但 是 生物 大 脑 
却 可 以 执行 复杂 的 任务 ， 如 飞行 、 寻 找 食物 、 学 习 语 言 和 逃避 天 政 。 





o 相 比 于 传统 的 计算 机 系统 ， 生 物 大 脑 对 损坏 和 不 完善 信号 共有 难以 置信 的 弹性 。 
。 由 互相 连接 的 神经 元 组 成 的 生物 大 脑 是 人 工 神经 网 络 的 灵感 来 源 。 








1.7 在 神经 网 络 中 追踪 信号 


每 个 神经 元 都 与 其 前 后 层 的 每 个 神经 元 相互 连接 的 三 层 神 经 元 图 片 ， 
看 起 来 让 人 相当 惊奇 。 


但 是 ， 计 算 信号 如 何 经 过 一 层 一 层 的 神经 元 ， 从 输入 变 成 输出 ， 这 个 
过 程 似乎 有 点 令 人 生长 ， 这 好 像 是 一 种 非 利 艰 震 的 工作 。 


即使 此 后 ， 我 们 将 使 用 计算 机 做 这 些 工作 ， 但 是 我 认为 ， 这 仍然 是 一 
项 艰苦 的 工作 。 但 是 这 对 说 明神 经 网 络 如 何 工 作 非 常 重 要 ， 这 样 我 们 束 可 
以 知 半 在 神经 网 络 内 部 友 生 了 什么 事情 。 因 此 ， 我 们 笃 试 使 用 只 有 有 两 层 、 
每 层 两 个 神经 元 的 较 小 的 神经 网 络 ， 来 沽 示人 神经 网 络 如 何 工作 ， 如 下 图 所 
不 。 
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让 我 们 想象 一 下 ， 两 个 输入 值 分 别 为 1.0 和 0.5。 这 些 值 输入 到 这 个 较 小 
的 神经 网 络 ， 如 下 图 所 示 。 

每 个 节点 使 用 激活 函数 ， 将 输入 转变 成 输出 。 我 们 还 将 使 用 先前 看 到 
的 S 国 数 y= 1/(1 + ex)， 其 中 神经 元 输入 信号 的 总 和 为 x ， 神 经 元 输出 为 y 


权重 是 什么 ? 权重 的 初始 值 应 该 为 多 少 ? 这 是 一 个 很 好 的 问题 。 让 我 
们 使 用 一 些 随 机 权重 : 
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e W341 =0.3 
e W22=0.8 
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BENLE AREENA EER, te BT E ei find FEL PEP R Ar A 
je PE SA AAAS PBN SH. PEA Rae SEAS, ELL AT A 
得 到 改进 。 对 于 神经 网 络 链接 的 权重 而 言 ， 这 也 古 一 伴 的 。 


在 这 个 小 型 的 神经 网 络 中 ， 由 于 连接 每 一 层 中 两 个 市 点 的 组 合 就 只 有 
四 种 连接 方式 ， 因 此 只 有 四 个 权重 。 下 图 标 出 了 我 们 当前 所 知 的 所 有 数 
eee 


1.0 








,=0.9 
> Fi 
w, ,=0. Fi 


SA 
+ BQ - 
W, =0.8 


让 我 们 开始 计算 吧 ! 


第 一 层 节 所 是 输入 层 ， 这 一 层 个 做 其 他 事情 ， 仪 表示 输入 信 写 。 也 就 
EW WAT AA 对 输入 答应 用 激活 函数 。 这 没有 什么 其 他 奇妙 的 原因 ， 
目 然而 然 地 ， 历 史 融 是 这 样 规 定 的 。 神 经 网 络 的 第 一 层 是 输入 层 ， 这 层 所 
做 的 所 有 事情 吏 是 表示 输入 ， 仅 此 而 已 。 


一 层 输 入 层 很 容易 ， 此 处 ， 无 需 进行 计算 


接 下 来 的 第 二 层 ， 我 们 需要 做 一 些 计算 。 对 于 这 一 层 的 每 个 节点 ， 我 
们 需要 算出 组 合 输入 。 还 记得 5 函数 y=17/ (1 + ex) 四 ? 这 个 函数 中 的 x 
表示 一 个 节点 的 组 合 输 入 。 此 处 组 合 的 是 所 连接 的 前 一 层 中 的 原始 输出 ， 
但 是 这 些 输出 得 到 了 链接 权重 的 调节 。 下 图 束 是 我 们 先前 所 看 到 的 一 幅 
图 ， 但 是 现在 ， 这 幅 图 包括 使 用 链接 权重 调节 输入 信号 的 过 程 。 





S jai) (# pA Z | 


y(x) 





因此 ， 首 乞 让 我 们 关注 第 二 层 的 节点 1。 一 层 和 输入 屋 中 的 两 个 市 点 连 
接 到 了 这 个 节点 。 这 些 输 入 节点 具有 1.0 和 0. ig KAAS A 节点 的 
链接 具有 0.9 的 相关 权重 ， 来 自 第 二 个 节点 的 链接 具有 0.3 的 权重 。 因 此 ， 组 
合 经 过 了 权重 调节 后 的 输入 ， 如 下 所 示 : 

x= (第 一 个 节点 的 输出 * 链 接 权 重 ) + (第 二 个 节点 的 输出 * 链 接 权 重 )》 
x= (1.0* 0.9) + (0.5 * 0.3) 
x=0.9+0.15 
x= 1.05 


BN ar eB: AM tS NEAT “NSB A fel 
相 加 1.0 + 0.5。 权 重 是 神经 网 络 进行 学 习 的 内 容 ， 这 些 权重 持续 进行 优 
化 ， 得 到 越 来 越 好 的 结 朱 。 


因此 ， 现 在 ， 我 们 已 经 得 到 了 x =1.05， 这 是 第 二 层 第 一 个 节点 的 组 合 
调和 和 输入。 最终 ， 我 们 可 以 使 用 激活 孜 数 y=1/ (1+ex) 计算 该 节点 的 
输出 。 你 可 以 使 用 计算 器 来 进行 这 个 计算 。 管 案 为 y=1/ (1+0.3499) =1 
/1.3499。 因 此 ，y = 0.7408. 


这 个 工作 真是 太 伟 大 了 ! 现在 ， 我 们 得 到 了 和 神经 网 络 两 个 输出 节 扣 中 
的 一 个 的 实际 输出 。 


a ERMER RRR, MEZERA. HS a Ta Ax 


x= 《第 一 个 节点 的 输出 * 链 接 权 重 ) +《〈 第 二 个 节点 的 输出 * 链 接 权重 ) 
x= (1.0*0.2) + (0.5 * 0.8) 
x=0.2+0.4 
x = 0.6 


因此 ， 现 在 我 们 可 以 使 用 $ 涩 活 函 数 y = 1/(1 + 0.5488) = 1/1.5488 7+ E 
点 输出 ， 得 到 y = 0.6457. 


下 图 显示 了 我 们 刚刚 计算 得 到 的 网 络 得 出 。 
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从 一 个 非常 简化 的 网 络 得 到 两 个 输出 值 ， 这 个 工作 量 相对 较 小 。 对 于 
一 个 相对 较 大 的 网 络 ， 我 不 希望 使 用 手工 进行 计算 ! 好 在 计算 机 在 进行 大 
量 计算 方面 表现 非常 出 色 ， 并 且 不 知 疲倦 和 厌烦 。 


即便 如 此 ， 对 于 有 具有 多 于 两 层 ， 每 一 层 有 4、 8 甚至 100 个 节 点 的 网 络 ， 
我 也 不 硕 望 编写 计算 机 指 AKON LCP NIRA 井 行 计算 。 即 使 只 是 写 出 所 有 
aaa 也 会 让 我 感到 枯燥 ， 让 我 犯错 ， 更 不 用 说 手工 进 
行 这 些 + 


好 在 ， 即 使 是 面 对 一 个 具有 很 多 层 、 众 多 节点 的 神经 网 络 ， 数 学 可 以 
玫 助 我 们 以 非常 简 党 的 方式 与 下 计算 出 所 有 输出 值 的 指令 。 由 于 这 种 简 清 
性 ， 指 can sueeae Cae EEA 
HAR » MTP RAL, WERA EE it o 


18 EĊbWWR, EERE KA HR 


ERA AIA HKEE. CNAE ANT, we eT iced 
FEF BCTET FE BERIA, ABREU AA. MRR IF, DA Ae Abe 
Te Tok X I EY TA] — 2 SS — 2 ES TE 


先前 ， 我 们 手工 对 两 屋 、 每 一 层 只 有 两 市 点 的 神经 网 络 进行 计算 。 对 
人 闫 而 言 ， 这 样 的 工作 量 也 是 足够 大 了 ， 但 是 ， 请 你 想象 一 下 ， 我 们 要 对 
五 层 、 每 层 100 个 节 扣 的 网 络 进 行 相同 的 计算 ， 这 是 一 种 什么 感受 ? 单单 羡 
写 下 所 有 必要 的 计算 ， 也 是 一 个 艰 巳 的 任务 .…... 对 每 一 层 每 一 个 市 把， 计 
BAA Raa SWAG, FEDER, MASP Aa... 


ABA, FEM Ot) Fe BOT Ot ee? 其 实 ， 窍 阵 在 两 个 方面 帮助 了 
RIJ Fc, FEMS VEER Sa ARE a, EE Ie he fa FL 
的 缩 与 形式。 由 于 人 关 不 擅长 于 做 大 量 枯燥 的 工作 ， 而 且 也 很 容易 出 钳 ， 
因此 和 窍 阵 对 人 类 帮助 很 大 。 第 二 个 好 处 是 ， 许 多 计算 机 编程 语言 理解 如 何 
与 定 阵 一 起 工作 ， 计 算 机 编程 语言 能 够 认识 到 实际 的 工作 下 重复 性 的 ， 因 
此 能 够 高 效 高 速 地 进行 计算 。 


忌 之 ， 算 阵 允许 我 们 简洁、 方便 地 表示 我 们 所 需 的 工作 ， 同 时 计算 机 
可 以 快速 高 效 地 完成 计算 。 

尽 官 我 们 在 学 校 学 习 赴 阵 时 有 一 段 痛 舌 的 经历 ， 但 是 现在 大 家 知道 我 
们 为 什么 要 使 用 罕 阵 了 吧 。 让 我 们 开始 使 用 十 阵 ， 揭 开征 阵 的 神秘 面纱 。 


aaa ERRERA ee 
FERWAR TI- 


如 果 你 使 用 过 电子 表格 ， 那 么 你 已 经 习惯 了 与 排列 成 网 格 的 数字 打 交 
道 了 。 下 图 显示 了 带 有 数字 的 电子 表格 。 
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So ~ P £ % .0 .0 123~ Arial = 10 
fi 
| A B C D 
1 3 32 5 
2 5 74 2 
3 8 11 8 
4 2 75 3 
5 
6 


ihe DIERE, EMRE PCE, PR AKRAN 
乘 以 3? 的 示例 起 阵 一 样 。 


第 一 个 数字 代表 行 ， 第 二 个 数字 代表 列 ， 这 和 是 约定 ， 因 此 ， 我 们 不 说 
这 古 “3 乘 以 2 的 和 窍 阵 ， 而 是 说 这 是 “2 乘 以 3 的 定 阵 。 


此 外 ， 一 些 人 使 用 方 括 与 表示 窍 隆 ， 为 一 些 人 与 我 们 一 样 ， 使 用 圆 括 
号 表示 矩阵 。 


其 实 ， 和 窍 阵 的 元 素 也 不 必 是 数字 ， 它 们 也 可 以 是 我 们 命名 的 、 但 还 未 
赋予 实际 的 数值 的 一 个 量 。 因 此 ， 以 下 是 这 样 一 个 矩阵 : 每 个 元 素 都 是 一 
个 变量 ， 有 具有 一 定 的 意义 。 虽 然 每 个 元 素 也 可 以 具有 一 个 数字 数值 ， 但 是 
我 们 只 是 还 未 说 明 这 些 数 值 为 多 少 。 


longitude of ship longitude of plane 


lattitude of ship lattitude of plane 


矩阵 对 我 们 很 有 用 处 ， 让 我 们 看 看 它们 是 如 何 相 乘 的 。 你 可 能 还 记得 
EE Ce ES manner EE E OE SUNNIUATE 
演示 一 通 。 


下 面 是 两 个 简单 窍 阵 相 乘 的 一 个 示例 。 


1 2 5 6 (1*5) + (2*7) (1*6) + (2*8) 
3 4 7 8 j (3*5) + (4*7) (3*6) + (4*8) 
19 22 
43 SO 


PRAT AMERS, RIAA E tl ST i A oe ET AR. AEA 
ERAN E1X 5, A RSI ERA 4x8. 
FAIS, FB ME EAL AN Ta] UU ET eis St. OS EE Bl, TR 


可 以 得 出 这 些 规则。 如 末 你 不 能 总 结 出 这 些 规则 ， 那 么 请 仔细 观察 下 图 ， 
下 图 中 突出 显示 了 爸 案 中 左上 角 的 元 系 是 如 何 计算 得 出 的 。 


(1*6) + (2*8) 
(3*6) + (4*8) 


> 





PRAT UAB, Ac EPA 0 8 eI “RE EY MITA SE 
Fe EASE © MEXEM, FRE BU 70 A HET AR, FRG ATS 
PEIER. Alt, ASWHA LAAN, RMA 
FORE 47), FOIE 1, SIP aaa ae os EEE Zc AS 
动 ， 我 们 找到 数字 5， 我 们 将 1 和 5 相 乘 ， 得 到 5。 我 们 继续 沿 看 行 和 列 移 


动 ， 找 到 数字 2 和 7， 将 2 和 7 相 乘 ， 我 们 得 到 14， 保 留 这 个 数字 。 


我 们 已 经 到 达 了 行 和 列 的 末尾 ， 因 此 我 们 将 所 有 得 到 的 数字 相 加 ， 即 5 
+ 14， 得 到 19。 这 就 是 结果 窍 阵 中 左上 角 的 元 素 。 


虽然 这 描述 起 来 非 解 哆 嗓 ， 但 是 ， 在 操作 时 ， 这 很 容易 观察 得 到 。 你 
目 己 可 以 试 一 试 。 下 和 面 ， 我 们 介绍 右 下 角 元 系 是 如 何 计 算得 出 的 。 


同样 ， 在 下 图 中 ， 你 可 以 观察 到 我 们 符 试 计算 的 所 对 应 的 行 和 列 《 在 


这 个 示例 中 ， 是 第 二 行 和 第 二 列 ) ， 我 们 得 到 《〈3x6) M (4x8) ， 最 后 得 
到 18 + 32 = 50。 


1 2 S le (1*5) + (2*7) (1*6) + (2*8) 
Ci es 7 & | (3*5) + (4*7) (3%) + (478) 
19 22 
43 | 50 


左下 角 的 元 素 计 算 公 式 为 (3*5) + (4*7) =15+28=43。 同 样 
地 ， 右 上 角 元 素 的 计算 公式 为 (1*6) + (2*8) =6+16=22。 


下 面 我 们 使 用 变量 ， 而 不 是 数字 ， 来 详细 说 明 规 则 。 


a b m e f (a*e) + (b*g) + ... (a*f) + (b*h) + ... 
C d in g h i (c*e) + (d*g) + ... (c*F) + (d*h) + ... 








XERRA IW HE eT IE] 9 PT A EF NS EH 
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各 种 大 小 的 窃 阵 上 ， 因 此 是 一 种 通用 规则 。 


虽然 我 们 说 这 种 方法 适用 于 不 同 大 小 的 窍 阵 ， 但 这 里 有 一 个 重要 的 限 
制 。 你 不 能 对 两 个 任意 滤 阵 进行 习 法 运 拭 ， 这 两 个 滤 阵 需要 互相 兼容 。 你 
可 能 已 经 观察 到 了 ， 第 一 个 宦 阵 的 行 和 第 二 个 矩阵 的 列 ， 这 两 者 应 该 是 互 
相配 的 。 如 来 行 元 系 的 数量 与 列 元 系 的 数量 个 岂 配 ， 那 么 这 种 方法 束 行 
不 通 了 。 因 此 ， 你 不 能 将 “2 乘 以 2 的 窍 阵 与 55 乘 以 5 的 乍 阵 相 乘 。 你 可 以 
尝试 一 下 ， 就 明日 为 什么 这 行 不 通 了 。 为 了 能 够 进行 矩阵 相 习 ， 第 一 个 算 
阵 中 的 列 数目 应 该 等 于 第 二 个 窍 阵 中 的 行 数 目 。 


在 一 些 书 籍 中 ， 你 会 看 到 这 样 的 矩阵 乘法 称 为 点 乘 Cdot product) 或 
内 积 (inner product) 。 实 际 上 ， 对 于 算 阵 而 言 ， 有 不 同类 型 的 乘法 ， 如 了 叉 
末 ， 但 是 我 们 此 处 所 指 的 是 点 乘 。 


为 什么 我 们 要 讨论 让 人 望 而 生 旦 的 矩阵 乘法 和 令 人 反感 的 代数 呢 ? 这 
看 起 来 像 是 一 个 “无 底 洞 "。 这 里 有 一 个 非常 重要 的 理由 .….. 我 们 先 暂且 不 


he | 


请 仔细 观察 ， 如 果 我 们 将 字母 换 成 对 神经 网 络 更 有 意义 的 单词 ， 那 么 
会 发 生 什么 情况 呢 ? MARR AERARII, EREE 
同 的 。 


W,, W, input_1 ( input_t * w,,) + ( input 2 * w,,) 
W,, W,, input_2 5 ( input_2 * Wa) + ( input2 * W,,) 


见证 奇迹 的 时 刻 到 来 了 ! 


第 一 个 滤 阵 包含 两 层 市 反之 则 的 权 曾 。 第 二 个 矩阵 包含 第 一 层 输 入 层 
的 信 写 。 退 过 两 个 矩阵 相 乘 ， 我 们 得 到 的 答案 是 输入 到 第 二 层 市 把 组 合 调 
太后 的 信号 。 仔 细 观 察 ， 你 惑 会 明日 这 点 。 由 权重 wii 调节 的 input_1 加 上 
由 权重 ws 1; 调节 的 ipput_2， 吏 是 第 二 层 第 一 个 节 氮 的 输入 值 。 这 些 值 殉 是 
在 应 用 S$ 函数 之 前 的 x 的 值 。 


PASE Rin EAN SIR 


x =( input_! * w ,)+( input_2 * w,,, ) 


input_ | 


input 2 








x = ( input_l * w,,)+( input_2 * w,,) 


这 上 真 的 非常 有 用 啊 ! 


为 什么 呢 ? 因为 我 们 可 以 使 用 矩阵 乘法 表示 所 有 计算 ， 计 算出 组 合 调 
En 
ZN: 


X=Wel 


TEAR, Wet HE, TERAP, X eG aa S. Ba 
ANBAR WAR ARIEM. AERE ERIN, Zee se FEM, mA 
EAS BF 


ME, BUNA ii EP ET DT MAR BIV RE HT 
Rhy ABA REMARK » (Exe, BUNA mE ERKKI — PRERA 
量 的 文字 。 我 们 可 以 简单 地 写 为 W*T， 不 管 I 有 2 个 元 素 还 是 有 200 个 元 素 。 


现在 ， 如 果 计 算 机 编程 语言 可 以 理解 矩阵 符 写 ， 那 么 计算 机 束 可 以 完 
成 所 有 这 些 艰 辛 的 计算 工作 ， 算 出 X= W*T， 而 无 需 我 们 对 每 一 层 的 每 个 
市 扩 给 出 单独 的 计算 指令 。 


这 真是 太 棱 了 ! 只 要 努力 一 点 ， 理 解 矩阵 乘法 ， 驶 可 以 找到 如 此 强大 
的 工具 ， 这 样 我 们 无 需 化 费 太 多 精力 惑 可 以 实现 神经 网 络 了 。 


ACE BL, RANZ SF RET Ae? 激活 函数 其 实 很 简单 ， 并 不 需 
要 算 阵 乘法 。 我 们 所 需 做 的 ， 是 对 矩阵 X 的 每 个 单独 元 素 应 用 S 函 数 y= 1 / 
(1te*) 


BEAR, MAN i BAB GOR AIAN S, REAT S AFER 
作 ， 管 采 就 在 X P. BRAX ROR UT, {Pe ee. ERA] 
FcR ASIEN, OG PA BUA ze M FS by ABE, 18 Se DR FS BE Re TEE tH 
经 元 中 观察 到 的 行为 。 因 此 ， 来 目 第 二 层 的 最 终 输出 是 : 


O = sigmoid ( X ) 
sag htt IRAE, KAREA Tice Hee eG — Re 
HY CG o 


表达 云 X= W "适用 于 前 后 层 之 间 的 计算 。 比 如 说 ， 我 们 有 3 层 ， 我 们 
简单 地 再 次 进行 矩阵 乘法 ， 使 用 第 二 层 的 输出 作为 第 三 层 的 输入 。 当 然 ， 
这 个 输出 应 该 使 用 权 和 草 系 数 进行 调 市 并 进行 组 合 。 

理论 已 经 足够 了 ， 现 在 ， 让 我 们 看 看 这 如 何在 一 个 真实 示 例 中 工作 。 
这 一 次 ， 我 们 将 使 用 3 层 、 每 一 层 有 3 个 布 氮 的 、 和 大 一 氮 的 神经 网 络 。 


KBEN 


。 EIRE R E HY SAA SA m ds 5k] ARN ANAE BERIS o 
ANE AZ A 2S ET AA] PDA Fa LE EIS Ay EB eS» ERATE A E fiT E 














。 RRQ, HEIRE SPREE, JEU GREER AOU. X 
允许 计算 机 高 速 高 效 地 进行 这 些 计算 。 








1.9 ”使 用 窍 阵 乘法 的 三 层 神 经 网 络 示 例 


我 们 还 没有 演示 过 使 用 滤 阵 进行 计算 得 到 经 由 神经 网 络 馈送 的 信和 号 ， 
我 们 也 没有 演示 过 多 于 2 层 的 神经 网 络 示例 。 在 这 个 示例 中 ， 我 们 需要 观察 
es 因此 这 个 示例 一 定 非常 
Po 


下 图 灾 示 了 其 有 3 层 、 每 层 上 共有 3 个 节操 的 神经 网 络 示 例 。 为 了 你 证 图 
的 清晰 ， 我 们 并 设 有 标 上 上 所 有 的 权重 。 
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此 处 ， 我 们 要 回 六 家 介绍 一 些 和 用 的 术语 。 正 如 我 们 所 知道 的 ， 
层 为 输入 层 ， 最 后 一 层 为 输出 层 H E JR RATER L AI RE o TT 
听 起 来 很 神秘 、 很 黑暗 ， 但 是 很 遗憾 ， 我 们 这 样 称 呼 中 间 层 ， 其 理由 并 不 
人 神秘。 中间 层 的 输出 不 需要 很 明显 地 表示 为 输出 ， 因 此 我 们 称 之 为 “ 隐 
od 当然 ， 这 个 解释 有 后 军 强 ， 然 而 ， 我 们 对 这 个 名 称 没 有 更 好 的 解释 


让 我 们 演示 一 下 图 中 所 描述 的 示例 网 络 。 我 们 观察 到 了 3 个 输入 是 
0.9、0.1 和 0.8。 因 此 ， 输 入 和 矩阵 7 为 : 


(2) 


XR. FEMA PIA Sa, ieee A, Alter 
经 完成 了 第 一 层 输 入 层 。 


接 下 来 是 中 间 的 隐藏 层 。 在 这 里 ， 我 们 需要 计算 出 输入 到 中 间 层 每 个 
TRIAS CN) 信和 号。 请 记 住 ， 中 间 隐 下层 的 每 个 市 点 部 与 输入 层 的 
每 个 节 反 相连 ， 因 此 每 个 市 点 部 得 到 输入 信号 的 部 分 信息 。 我 们 不 想 再 像 
先前 那样 做 大 量 的 计算 ， 我 们 希望 竹 试 这 种 矩阵 的 方法 。 


正如 我 们 刚才 看 到 的 ， 输 入 到 中 间 层 的 组 合 调 市 信号 为 X=W*T， 其 
中 了 为 输入 信和 号 窍 阵 ， 允 为 权重 窃 阵 。 这 个 神经 网 络 的 [、 永 是 什么 样 的 
Ne? 图 中 显示 了 这 个 神经 网 络 的 一 些 权 重 ， 但 征 并 没有 显示 所 有 的 权重 。 
下 图 显示 了 所 有 的 权重 ， 同 样 ， 这 些 数字 是 随机 列举 的 。 在 这 个 示例 中 ， 
权重 没有 什么 特殊 的 合 义 。 


0.9 0.3 0.4 
Ws, set hidden = 0.2 0.8 0.2 
0.1 0.5 0.6 


你 可 以 看 到 ， 第 一 个 输入 而 点 和 中 间 隐 基层 第 一 个 和 
wi1=0.9， 正 如 上 图 中 的 神经 网 络 所 示 。 同 样 ， 你 可 以 看 到 输入 的 第 
FAT Rei AY R TS AZ) EY EE Pe HA BAW 9 = 0.8。 uta. 
IB IN SB = 7S Bet AY 2 ZA EB, RAIEN S — 
NEw 31 = 0.4. 


但 是 等 等 ， 为 什么 这 个 W 的 下 标 我 们 与 的 是 “input_hidden” 呢 ? 这 是 因 
为 W input hidden 古 输 入 层 和 隐藏 层 之 间 的 权 草 。 RREA APURE 


表示 隐藏 层 和 输出 层 之 间 的 链接 ， 这 个 矩阵 我 们 称 之 为 Wiaaen output 。 


下 岁 显 示 的 是 第 二 个 窍 阵 W hidden ouput ， 如 先前 一 样 ， 窍 阵 中 填写 了 权 
重 。 举 个 例子 ， 同 样 你 可 以 看 到 ， 隐 和 蕊 层 第 三 个 节 扣 和 输出 层 第 三 个 市 所 
ZAHER IA BL AW 33 = 0.9。 


太 棒 了 ， 我 们 已 经 得 到 了 排列 整齐 的 权重 矩阵 。 


让 我 们 一 起 继续 算出 输入 到 隐藏 层 的 组 合 调 市 输入 值 。 我 们 应 该 给 这 
个 输入 值 一 个 名 称 ， 考 虑 到 这 个 组 合 和 输入 是 到 中 间 层 ， 而 不 是 最 终 层 ， 因 
此 ， 我 们 将 它 称 为 X hidden ° 


X hidden 一 W input_hidden Z. 


此 处 我 们 不 打算 进行 完整 的 窍 阵 乘法 运算 ， 因 为 那 正 是 年 阵 的 用 臣 之 
地 。 我 们 硕 望 使 用 计算 机 进行 弘 力 的 数字 和 运算。 计算 出 的 答案 如 下 图 所 


小 
0.3 0.3 0.4 0.3 
X idden = 0.2 0.8 0.2 o 0.1 
0.1 0.5 0.6 0.8 


Midden 下 


我 使 用 计算 机 进行 了 这 个 工作 ， 在 本 书 的 第 2 革 ， 我 们 将 一 同学 习 如 何 
使 用 Python 编程 语言 进行 这 项 工作 。 现 在 ， 我 们 不 希望 由 于 计算 机 软件 而 
分 心 ， 因 此 我 们 和 暂时 不 进行 这 个 工作 。 


我 们 已 经 拥有 了 输入 到 中 间 隐 羧 层 的 组 合 调节 输入 值 ， 它 们 为 1.16、 
0.42 和 0.62。 我 们 使 用 窍 阵 这 个 工具 来 完成 这 种 复杂 的 工作 ， 这 是 值得 我 们 
目 又 的 一 个 成 就 。 


让 我 们 可 视 化 这 些 输 入 到 第 二 层 隐 羧 层 的 组 合 调节 输入 。 


0.9 
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虽然 到 目前 为 止 ， 一 切 都 还 顺利 ， 但 是 ， 我 们 还 有 更 多 的 工作 要 做 。 
我 们 对 这 些 贡 点 应 用 了 S 激 活 函 数 ， 使 得 节点 对 信号 的 反应 更 像 目 然 界 中 
节点 的 反应 ， 你 应 该 记得 这 一 点 吧 ! 因此 ， 现 在 ， 我 们 进行 这 个 操作 : 


O hidden = Sigmoid( X hidden ) 


EX waden 层 中 的 元 素 上 应 用 S 函 数 ， 生 成 中 间 隐藏 层 输出 矩阵 。 


O = sigmoid 0.42 


O idden = 


让 我 们 检查 第 一 个 元 素 ， 确 定 一 下 过 程 。S 函 数 为 yv=1/ (1+e*) , 因 
此 ， 当 x = 1.16 时 ，e -+16 是 0.3135。 这 意味 着 y= 1/ (1+ 0.3135) =0.761. 


你 会 看 到，S 函 数 的 值 域 在 0 和 1 之 间 ， Lr 之 个 区 间 。 如 
来 你 回头 看 看 他 辑 函 数 的 图 形 ， 也 可 以 耻 观 地 看 到 这 一 后 


a! 让 我 们 再 次 和 暂 俘 ， 看 看 我 们 已 经 完成 的 事情 。 当 信和 号 通过 中 间 层 
时 ， 我 们 对 这 些 信号 进行 了 计算 ， 也 束 是 说 我 们 计算 出 了 中 间 层 的 输出 
值 。 这 个 过 程 是 非常 消 晰 的 ， 也 束 是 应 用 激活 函数 到 中 间 层 的 组 合 输入 信 
上 。 让 我 们 使 用 这 个 新 信息 ， 更 新 下 图 。 


0.761 
j aus 0.603 
a ———» U 2 2 4( 2 一 2) 一 -一 
| 06) 0.650 
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如 果 这 只 是 一 个 两 层 的 神经 网 络 ， 那 么 这 些 就 是 此 二 层 的 输出 值 ， 我 
们 现在 融 可 以 俘 止 计算 了 。 但 是 ， 由 于 还 有 第 三 层 ， 我 们 不 能 在 此 处 俘 止 
计算 。 


我 们 如 何 处 理 通过 第 三 层 的 信 筷 呢 ? 我 们 可 以 采用 与 处 理 第 二 层 信 筷 
相同 的 方式 进行 处 理 ， 这 没有 任何 实质 的 区 列 。 我 们 仍然 可 以 得 到 第 三 
的 输入 信号 ， 残 像 我 们 得 到 第 二 层 的 输入 信号 一 样 。 我 们 依然 使 用 激活 函 
Bl, (EAS TAR Ry SEITE BATE TBE AE, i BEY 
事情 是 ， 不 官 有 多 少 层 神 经 网 络 ， 我 们 部 “一 视 同仁 ”"， 即 组 合 输入 信号 ， 
应 用 链接 权 香 调 市 这 些 输 入 信 写 ， 应 用 油 活 函数 ， 生 成 这 些 层 的 输出 信 


Ka Al \ 在 乎 是 在 计算 第 3 层 、 第 53 层 或 是 第 103 层 的 信号 ， 使 用 的 方法 
中 H 


因此 ， 证 我 们 扬帆 起 航 ， 与 我 们 以 前 所 做 的 一 样 ， 继 续 计算 最 终 层 的 
组 合 调 节 输 入 X= Wel « 


一 层 的 输入 信号 古 第 二 层 的 输出 信号 ， 也 就 是 我 们 刚刚 解 出 的 O 
hidden 。 所 合用 的 权重 殉 是 第 二 层 和 第 三 技 之 间 的 链接 权重 W nidden_output ， 


而 不 是 第 一 层 和 第 二 层 之 间 的 链接 权重 。 因 此 ， 我 们 得 到 : 


X output =W hidden_output °. O hidden 


因此 ， 使 用 同样 的 方式 计算 出 这 个 矩阵 ， 这 样 我 们 得 到 了 最 后 一 层 答 
出 层 的 组 合 调节 输出 信号 。 


0.3 0.7 0.761 
ee 0.6 0.5 
0.8 0.1 0.650 


现在 ， 更 狐 示 意图 ， 展 示 我 们 的 进展 ， 从 初始 输入 信号 开始 ， 前 馈 信 
写 ， 并 得 到 了 最 终 层 的 组 合 输 入 信号 。 


人 


剩 下 的 工作 融 是 应 用 S 诉 活 函 效 ， 这 古 很 容易 的 一 件 事情 。 


O975 


O = signmoid 0.888 


output 


1.254 


0.726 
DO = 0.708 
0.778 


成 功 就 是 这 么 的 容易 ! 我 们 得 到 了 和 神经 网 络 的 最 终 输出 信号 。 让 我 们 
也 将 其 巡 示 在 图 上 。 


因此 ， 这 个 三 层 示 例 神 经 网 络 的 最 终 输出 信号 为 0.726、0.708 和 
0.778. 


我 们 成 功 退 踩 了 神经 网 络 中 的 信号 ， 从 信号 进入 神经 网 络 ， 通 过 神经 
网 络 的 各 层 ， 并 得 到 了 最 终 输 出 层 的 输出 信和 号 。 


现在 ， 我 们 应 该 做 些 什 么 呢 ? 


下 一 步 ， 将 神经 网 络 的 输出 值 与 训练 样本 中 的 输出 值 进行 比较 ， 计 算 
ee neem Ace 
Zr WY Fil o 


09 -一 一 一 > ( ( ( —————-> 0.726 
01 -一 一 一 > C) C) C) -一 一 一 > 0.708 
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这 可 能 是 最 难以 理解 的 事情 ， 因 此 ， 随 看 我 们 继续 学 习 本 书 ， 我 们 将 
会 如 春风 细 雨 般 评 细 曾 述 这 个 思想 。 


1.10 ”和 学习 来 目 多 个 市 点 的 权重 


先前 ， 我 们 通过 调整 节操 线性 函数 的 科 率 参数 ， 来 调整 休 时 的 线性 分 
Rao RAUH IRAE, Hii EM SASS ATA IE FZ IA AY 
(eS) RIDETI. KEKE, RAE AS Ad ZETA RS Ud eZ N] 
的 关系 非常 简单 ， 调 整 过 程 非常 容易 。 


当 输 出 和 误 友 是 多 个 市 点 共同 作用 的 结果 时 ， 我 们 如 何 更 新 链接 权 和 草 
呢 ? 下 图 详细 阐释 了 这 个 问题 。 


“RASA MA iia Ss PUTT, STE TS. UR A NA 
TAR RATU 156 H Fan ch RAEE? 

使 用 所 有 的 误 天 值 ， 只 对 一 个 权 香 进行 更 新 ， 这 种 做 法 忽略 了 其 他 链 
接 及 其 权重 ， 坚 无 意义 。 多 条 链接 都 对 这 个 误 委 值 有 影响 。 

只 有 一 条 链接 造成 了 误 靶 ， 这 种 机 会 微 竹 其 做。 如 末 我 们 改变 了 已 
经 “ 正 硝 ” 的 权重 而 使 情况 变 得 更 糟 ， 那 么 在 下 一 次 旭 代 中 ， 这 个 权重 束 会 
得 到 改进 ， 因 此 神经 网 络 并 没有 失去 什么 。 


一 种 思想 束 古 在 所 有 造成 误 大 的 太 扣 中 平分 误 牵 ， 如 下 图 所 示 。 


w, ,=3. aa” ee 
KO ei 输出 误差 
WwW ,= 1.0 pama 
ou 1/2 误 差 ? 
太一 种 思想 是 个 守 分 误 奏 。 与 前 一 种 思想 相反 ， 我 们 为 较 大 链接 权重 


的 连接 分 配 更 多 的 误 大 。 为 什么 这 样 做 呢 ? 这 十 因 为 这 些 链接 对 造成 误 大 
的 页 献 较 大 。 下 图 评 细 阐释 了 这 种 思想 。 


3/4 误 差 


; 
O Ea 
w, ,= 3.0 ee 
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1/4 误 差 


w, = 1.0 


P 


此 处 ， 有 两 个 节点 对 输出 节点 的 信号 做 出 了 贡献 ， 它 们 的 链接 权重 分 
别 是 3.0 和 1.0。 如 果 按 权重 比例 分 割 误 差 ， 那 么 我 们 就 可 以 观察 到 输出 误差 
ee ree TRAY 1/4 可 以 用 来 更 新 较 小 
S4 i 


我 们 可 以 将 同样 的 思想 扩展 到 多 个 市 点 。 如 果 我 们 拥有 100 个 市 点 链接 
到 输出 条 点 ， 那 么 我 们 要 在 这 100 条 ERS M, 按照 每 条 链接 对 误差 所 做 页 
献 的 比例 〈 由 链接 权重 的 大 小 表示 ) ， 分 割 误差 。 


你 可 以 观察 到 ， 我 们 在 两 件 事情 上 使 用 了 权重 。 第 一 件 事 情 ， 在 神经 
网 络 中 ， 我 们 使 用 权重 ， Fin EAE RES IERT, RATT 
EEREN. STP, FAB AE, HiRes [al ea 
RRR A. RIERS TIE RATER, RIAA ANSE YT EB 
ae 


如 果 输 出 层 有 有 2 个 市 点， 那么 我 们 对 第 二 个 输出 节操 也 会 做 同样 的 事 


情 。 第 二 个 输出 节点 也 会 有 其 误差 ， 这 个 误差 也 可 以 通过 相连 的 链接 进行 
类 似 的 分 割 。 在 接 下 来 的 内 容 中 ， 我 们 将 来 看 看 这 个 方法 ， 


111 多 个 输出 节点 反问 传播 误 闫 


下 图 显示 了 共有 2 个 输入 市 点 和 2 个 输出 节 扣 的 简单 网 络 。 


两 个 输出 贡 点 都 有 误差 一 一 事实 上 ， 在 未 受过 训练 的 神经 网 络 中 ， 这 
旦 极 有 可 能 友 生 的 情况 。 你 会 用 现 ， 在 网 络 中 ， 我 们 需要 使 用 这 两 个 误 产 
值 来 各 知 如 何 调整 内 部 链接 权重 。 我 们 可 以 使 用 与 先前 一 样 的 方法 ， 也 吏 
旦 跨越 造成 误 关 的 多 条 链接 ， 按 照 权 重 比例 ， 分 割 输出 而 点 的 误 产 。 


我 们 拥有 多 个 节 氮 这 一 事实 并 没有 改变 任何 事情 。 对 于 第 二 个 输出 贡 
扩 ， 我 们 只 是 人 简单 地 和 曹 复 第 一 个 节 扩 所 做 的 事情 。 为 什么 如 此 简 早 呢 ? 这 
是 由 于 进入 输出 节 扣 的 链接 不 依赖 于 到 为 一 个 输出 节操 的 链接 ， 因 此 事情 
束 变 得 非常 休 蛙 ， 在 两 组 的 链接 之 间 也 不 存在 依赖 天 系 。 


让 我 们 再 次 观察 此 图 ， 我 们 将 第 一 个 输出 节点 的 误差 标记 为 e: 。 请 记 
住 ， 这 个 值 等 于 由 训练 数据 提供 的 所 期 望 的 输出 值 f 与 实际 输出 值 o; 之 间 
的 差 。 也 就 是 ，e | = (ti; -0 1)。 我 们 将 第 二 个 输出 节点 的 误差 标记 为 e, 。 


从 图 中 ， 你 可 以 发 现 ， 按 照 所 连接 链接 的 比例 ， 也 就 是 权重 w 1 1 Aw 
21? BAI RAe 1 EIT T E 类 似 地 ， 我 们 按照 权重 w 1,2 和 w 2,2 的 比 
例 分 割 Ses o 


让 我 们 写 出 这 些 分 割 值 ， 这 样 我 们 束 不 会 有 任何 疑问 了 了。 我 们 使 用 误 
Fee, 的 信息 Cy 3 RK Val BEAM EW] 1 Fiw 1 o i sa 这 种 分 ye TZN, BAN Ee, 的 
一 部 分 来 更 新 wl 1 : 


Wia 


ct LIAO LE he i AO dt a, 


Wia T W31 


类 似 地 ， 用 来 调整 Ew, 的 el i 部 分 为 : 


W, 


tt he ed hoe A A Mt A 


Wia a W31 
这 些 分 数 看 起 来 可 能 令 人 有 点 费解 ， 让 我 们 详细 阐释 这 些 分 数 。 在 所 
ARER Ss Aa, EVAR Artal, tiie Ae, 要 分 割 更 大 的 人 给 较 大 的 
权重， 分 割 较 小 的 值 给 较 小 的 权重 。 


如 朱 wi1 EW, 的 2 倍 ， 比 如 说，wi1= 6， We 3， 那 么 用 于 更 新 wi 1 
Me, 的 部 分 就 是 6/ (6+3) = 6/9 = 2/3。 同 时 ， 这 留 下 了 1/3 的 ej 给 较 小 的 
权重 w>1 ， 我 们 可 以 通过 表达 式 3/ (6 +3) ape 这 确实 是 1/3。 


如 条 权重 相等 ， 正 如 你 所 期 于 的 ， 各 分 一 半 。 让 我 们 确定 一 下 ， 假 设 
W11 一 4 和 w2? 1 = 4, 那么 针对 这 文 种 情况 ， C1 AA Se 的 比例 都 等 于 4 / (4+ 
4) =4/8=1/2. 


在 更 加 深入 理解 之 前 ， 让 我 们 先 暂 停 一 下 ， 退 后 一 步 ， 从 一 个 较 远 的 
距离 观察 我 们 已 经 做 的 事情 。 我 们 知道 十 要 使 用 误 氏 来 指导 在 网 络 内 部 如 
何 调整 一 些 参 数 ， 在 这 里 也 束 古 链接 权 章 。 我 们 明白 了 如 何 调整 链接 权 
重 ， 并 且 我 们 使 用 链接 权重 来 调节 进入 神经 网 络 最 终 和 输出 层 的 信号 。 在 存 
在 多 个 输出 节点 的 情况 下 ， 我 们 也 看 到 了 这 种 调整 过 程 没 有 变 得 复杂 ， 只 
羡 对 每 个 输出 下 点 都 进行 相同 的 操作 。 人 然后 吏 摘 定 了 ! 


接 下 来 我 们 要 问 的 问题 是 ， 当 神经 网 络 多 于 2 层 时 ， 会 发 生 什 么 事情 
WE? 在 离 最 终 输出 层 相 对 较 远 的 层 中 ， 我 们 如 何 更 新 链接 权重 呢 ? 


112 反问 传播 误差 到 更 多 层 中 


下 图 显示 了 有 共有 3 层 的 徐 单 神经 网 络 ， 一 个 输入 层 、 一 个 隐藏 展 和 一 个 
最 终 输 出 层 。 








从 右手 边 的 最 终 输出 层 开 始 ， 往 回 工 作 ， 我 们 可 以 看 到 ， 我 们 使 用 在 
得 出 层 的 误 状 值 引导 调整 馈送 到 最 终 层 的 链接 权重 。 更 一 般 地 ， 我 们 将 输 
出 误差 标记 为 eouput ， 将 在 输出 层 和 隐藏 层 之 间 的 链接 权 章 标记 为 wn。。 通 
过 将 误 开 值 按 权 香 的 比例 进行 分 割 ， 我 们 计算 出 与 每 条 链接 相关 的 特定 记 
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了 此 逻辑 。 





如 果 神 经 网 络 具有 多 个 层 ， 那 么 我 们 就 从 最 终 输 出 层 往 回 工作 ， 对 每 
一 层 重复 应 用 相同 的 思路 。 误 差 信息 流 具 有 直观 意义 。 同 样 ， 你 明白 为 什 
么 我 们 称 之 为 误差 的 反 向 传播 了 。 


如 果 对 于 输出 层 节点 的 eouwwt ， 我 们 首先 使 用 了 输出 误差 。 那 么 ， 对 
于 隐藏 层 节点 euais ， 我 们 使 用 什么 误差 呢 ? 中 间 隐 藏 层 节点 没有 明确 显 
示 的 误差 ， 因 此 这 是 一 个 好 问题 。 我 们 知道 ， 向 前 馈送 输入 信和 号， 隐藏 层 
的 每 个 节点 确实 有 一 个 单一 的 输出 。 还 记得 ， 我 们 在 该 节点 经 过 加 权 求 和 
有 9 信 号 直 应 用 激活 函数 ， 才 得 到 了 这 个 输出 。 但 是 ， 我 们 如 何 才能 计算 出 
天 过 号 ， 


对 于 隐藏 层 的 太 点 ， 我 们 没有 目标 值 或 所 布 户 的 输出 值 。 我 们 只 有 最 
终 输 出 层 市 点 的 目标 值 ， 这 个 目标 值 来 自 于 训练 样本 数据 。 让 我 们 再 次 观 
RER, TERE! 隐 蕊 层 第 一 个 市 点 上 共有 两 个 链接 ， 这 两 个 链接 将 
这 个 布点 连 接 a 到 两 个 输出 层 节 后。 我们 知道 ， 疝 着 各 个 链接 可 以 分 割 输出 
误 雳 ， 碘 像 我 们 先前 所 做 的 一 样 。 这 半 味 着 ， 对 于 中 间 层 市 点 有 的 每 个 链 
接 ， 我 们 得 到 了 茶 种 误 兰 值 。 我 们 可 以 重组 这 两 个 链接 的 误 兰 ， 形 成 这 个 
广 扩 的 误 牵 。 实 际 上 我 们 没有 中 间 层 市 扣 的 目标 值 ， 因 此 这 种 方法 算得 上 
第 二 最 住 方法 。 下 图 束 可 视 化 了 这 种 想法 。 


— O GOO > 
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虽然 你 可 以 相对 清楚 地 观察 到 发 生 的 事情 ， 但 是 我 们 还 是 要 再 次 演 
示 ， 确 认 一 下 。 我 们 需要 隐藏 层 节 点 的 误 产 ， RE CATT it BY MEA A wos 
Fe BUSTA Jas 中 的 权重 。 我 们 称 这 个 误 关 为 eliaiw 。 但 是 ， 我 们 不 需要 明 
确 地 回答 这 些 误差 是 什么 。 我 们 的 训练 样本 数据 只 给 出 了 最 终 输 出 节点 的 
i gal He Ux TS eee E a a ae A os b E 5 Se prta h 

ZAI AE 
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因此 ， 第 一 个 隐藏 层 节点 的 误差 是 与 这 个 节点 前 同 连 接 所 有 链接 中 分 割 误 
大 的 和 。 在 上 疼 中 ， 我 们 得 到 了 在 权重 为 wii RER EII H R output] 
的 一 部 分 ， 同 时 也 得 到 了 在 权重 为 wl， 的 链接 上 第 二 个 输出 节点 的 输出 误 
Z € output,2 的 一 部 分 。 


让 我 们 将 这 些 值 写 下 来 。 
hidden a = 链接 W, , 和 链接 W, > 上 的 分 割 误差 之 和 


Wii Wi 





x a á 
© output,2 © output,2 
Wag + W Wia t W22 


这 有 助 于 我 们 看 到 这 个 理论 的 实际 作用 ， 下 图 评 细 曾 释 了 在 一 个 人 简单 


的 具有 实际 数字 的 3 层 网 络 中 ， 误 着 如 何 同 后 传播 。 


输入 层 1 隐藏 层 2 输出 层 3 





让 我 们 演示 一 下 反问 传播 的 误差 。 你 可 以 观察 到 ， 第 二 个 输出 层 节 点 
的 误 兰 0.5， 在 其 有 权重 1.0 和 4.0 的 两 个 链接 之 间 ， 根 据 比 例 科 分割 成 了 0.1 
和 0.4。 你 也 可 以 观察 到 ， 在 隐藏 层 的 第 二 个 节点 处 的 重组 误差 等 于 连接 的 
分 割 误差 之 和 ， 也 就 是 0.48 与 0.4 的 和 ， 等 于 0.88。 


如 下 图 所 示 ， 我 们 进一步 癌 后 工作 ， 在 前 一 层 中 应 用 相同 的 思路 。 


输入 层 | 隐藏 层 2 输出 层 3 
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RATEI LEHE BRAK Tl LAT A Ee ap IAN TS? 此 前 ， 当 
我 们 执行 大 量 计算 以 得 到 前 饭 和 输入 信号 时 ， 和 矩阵 乘法 帮助 了 我 们 。 

要 明日 误差 反 同 传播 是 否 可 用 骨 过 使 用 窍 阵 乘 法 和 变 得 更 加 人 简洁， 让 我 
们 使 用 符 写 写 出 步 又 。 顺 便 说 一 句 ， 这 就 是 笠 斌 所谓 的 将 过 程 (vectorise 
the process) RÆ. 


我 们 可 以 相对 简单 地 以 是 阵 形 陈 表 达 大 批量 的 计算 ， 这 有 利于 我 们 的 
书写 ， 并 且 由 于 这 种 方法 利用 了 所 需 计 算 中 的 相似 性 ， 因 此 这 允许 计算 机 
更 高 效 地 完成 所 有 计算 工作 。 


计算 的 起 始点 是 在 神经 网 络 最 终 输 出 层 中 出 现 的 误差 。 此 时 ， 在 输出 
层 ， 神 经 网 络 只 有 两 个 节点 ， 因 此 误差 只 有 e; Alle, 。 


€, 
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圣 吉 的 事情 ， 好 吧 ， 让 我 们 以 奏 食 的 方 么 ， 一 点 一 点 地 做 这 件 事 。 第 一 件 
事 与 隐 藏 层 中 的 第 一 个 节点 相关 。 如 果 你 再 次 观察 上 图 可 以 看 到 ， 在 输出 
层 中 ， 有 两 条 路 径 对 隐 攻 层 第 一 个 节点 的 误 委 做 出 了 页 献 ”。 治 着 这 些 路 
fe, RIJEI S RZA se, * wy / (wy + Wo) Fes *wi9/ (wy t+ Woo 
)。 现 在 ， 让 我 们 看 看 隐藏 层 的 第 二 个 节点 ， 同 样 ， 我 们 看 到 了 有 两 条 路 径 
WK RA A h IRR, RIJE ERAT Se, 7 W21 / ( W21 + Wi ) 和 €> 
* W221/(W22+ W122)。 先 前 ， 我 们 就 已 经 明白 了 这 些 表达 式 是 如 何 计算 得 
到 的 。 


因此 ， 我 们 得 到 了 下 列 的 隐 蕊 层 窍 阵 。 这 比 想 要 的 沧 阵 要 复杂 一 些 。 











s A A » i 
Wo. 十 Ws Wiz = W > e, 
Error T ® 
ê, 
W31 W32 
W31 ii Was W, > 十 Wi» 


WR KS FEE BS HS, AT EAH, HAERE, 
那 束 太 棒 了。 这 是 权重 、 前 辣 信 号 和 输出 误差 矩阵 。 请 记 住 ， 如 果 我 们 能 
Te SFB BE, ASR ACA Pa int o 

BRAE, BOT IAN BE RC Bi EAE a SN RE, RS I I 
Fete HRY Ee ERER. FEI PEAR RIAN ABBE, RHE GP BY 
Ve ln 的 矩 隆 整 章 地 分 割 成 镜 单 可 用 的 矩阵 
组 合 ， i in o 


我 们 可 以 做 些 什 么 呢 ? 我 们 依然 非 第 希望 利用 窍 阵 乘 法 有 效 完 成 计 
算 ， 给 我 们 市 来 好 处 。 

我 尹 ， 这 是 该 变 得 淘气 一 点 的 时 候 了 ! 

再 次 观 紧 上面 的 表达 却 。 你 可 以 观察 到 ， 节 重要 的 事情 是 输出 误 关 与 
链接 权重 wii 的 乘法 。 较 大 的 权重 束 意 味 看 携 市 较 多 的 输出 误差 给 隐 茂 层 。 
这 古 非 负重 要 的 一 点 。 这 些 分 数 的 分 母 是 一 种 归 一 化 因 于 。 如 采 我 们 忽略 
了 这 个 因子 ， 那 么 我 们 仅仅 撩 去 后 饥 误 兰 的 大 小 。 也 焉 是 说 ， 我 们 使 用 简 


里 得 多 的 el * wy RI Ee * wy 1 / (Wi + w21)。 
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这 个 权 香 埠 阵 与 我 们 先前 构建 的 矩阵 很 像 ， 但 是 这 个 矩阵 疝 对 角 线 进 
行 了 翻转 ， 因 此 现在 右上 方 的 元 系 变 成 了 左下 方 的 元 系 ， 左 下 方 的 元 素 变 
成 了 左上 方 的 元 素 。 我 们 称 此 为 转 置 定 阵 ， 记 为 w 。 


此 处 ， 有 两 个 数字 转 置 窍 阵 的 示例 ， 因 此 ， 我 们 可 以 清 茎 地 观察 到 所 
肥 生 的 事情 。 你 可 以 看 到 ， 即 使 窍 阵 的 行 数 和 列 数 不 同 ， 也 是 可 以 进行 转 
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虽然 这 样 做 看 起 来 不 错 ， 但 是 将 归 一 化 因子 切除 ， 我 们 做 得 正确 吗 ? 
实践 证 明 ， 这 种 相对 简单 的 误 甜 信号 反馈 方式 ， 与 我 们 先前 相对 复杂 的 方 
式 一 样 有 效 。 这 本 书 的 相关 博客 中 ， 有 一 扁 博 文 就 显示 了 使 用 不 同方 法 进 
行 反 问 误 差 传 播 的 结果 。 如 果 这 种 相对 简单 的 方式 行 之 有 效 ， 那 么 我 们 就 
应 该 坚持 这 种 方法 。 

如 果 我 们 要 进一步 思考 这 个 问题 ， 那 么 我 们 可 以 观察 到 ， 即 使 反馈 的 
误 莽 过 大 或 过 小 ， 在 下 一 轮 的 学 习 达 代 中 ， 网 络 也 可 以 目 行 纠正 。 重 要 的 
是 ， 由 于 链接 权重 的 强度 给 出 了 共享 误差 的 最 好 指示 ， 因 此 反馈 的 误差 应 
该 过 循 链接 权重 的 强度 。 


我 们 已 经 做 了 海量 的 工作 了 ! 
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计算 机 语言 更 高 效 、 更 快速 地 完成 工作 。 

。 这 意味 痢 前 问 馈 送信 号 和 上 反 回 传播 误 关 都 可 以 使 用 矩阵 计算 而 变 得 蜗 效 。 





接 下 来 ， 下 面 一 贡 的 理论 相当 酷 炫 ， 这 需要 一 个 清醒 的 大 脑 ， 因 此 请 
好 好 休 恩 调整 一 下 。 


1.14 我们 实际 上 如 何 更 新 权重 


我 们 还 没有 解决 在 神经 网 络 更 新 链接 权重 中 非 利 核心 的 问题 。 我 们 一 
和 卫 在 努力 解决 这 个 问题 ， 现 在 ， 我 们 几乎 丈 要 到达 目 标 了 。 在 解 开 这 个 秘 
密 之 前 ， 我 们 还 需要 理解 一 个 单 要 的 思想 。 


到 目前 为 止 ， 我们 已 经 理解 了 让 误 大 反问 传播 到 网 络 的 每 一 层 。 为 什 
么 这 样 做 呢 ? 原 因 束 是 ， 我 们 使 用 误 牵 来 指导 如 何 调 整 链接 权 香 ， 从 而 改 
进 和 神经 网 络 输出 的 忌 体 容 采 。 这 基本 上 束 古 我 们 使 用 本 书 先前 所 讨论 的 线 
EDR ae ATC STF o 
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的 神经 网 络 ， 束 像 我 们 刚才 使 用 的 神经 网 络 ， 也 有 具有 太 多 的 权重 和 函数 需 
要 组 合 。 在 此 情况 下 ， 你 如 何 调整 输入 层 第 一 个 节 扣 和 隐藏 层 第 二 个 节操 
之 间 链 路 的 权 草 ， 以 使 得 输出 层 第 三 个 亨 扣 的 输出 增加 0.5 呢 ?即使 我 们 碰 
运气 做 到 了 这 一 操 ， 这 个 效果 也 会 由 于 裔 要 调整 力 一 个 权 童 来 改进 不 同 的 
输出 市 反而 被 破坏 。 你 不 能 将 此 视 为 无 天 案 要 的 事情 。 


要 意识 到 这 件 事情 的 重要 性 ， 请 观察 下 面 这 个 “面目 可 民 ” 的 表达 式 ， 
这 是 一 个 简单 的 3 层 、 每 层 3 个 市 点 的 神经 网 络 ， 其 中 输入 层 节 点 的 输出 是 
输入 值 和 链接 权重 的 函数 。 在 节点 ji 处 的 输入 是 x ， 连 接 输 入 层 节 点 i 到 隐 
藏 层 节 点 j 的 链接 权重 为 wi;, ; ， 类 似 地 ， 隐 藏 层 节点 j 的 输出 是 5 ， 连 接 隐 
茂 层 节点 j 和 输出 层 节 点 k 的 链接 权重 是 w; kx 。 那 个 看 似 有 趣 的 符号 2 。 意 味 
看 对 在 a 和 b 值 之 则 的 所 有 后 续 表 达 式 求 和 。 
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IF! 还 是 让 我 们 不 要 去 便 磁 便 地 求解 这 个 表达 式 吧 ，。 
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重 ， 下 到 找到 好 的 权重 组 合 。 


当 我 们 陷入 一 个 困难 的 问题 而 焦头烂额 时 ， 这 不 算是 一 个 狗 狂 的 息 
法 。 我 们 称 这 种 方法 为 暴力 方法 。 有 些 人 使 用 暴力 方法 试图 破解 密码 ， 如 
果 密 码 是 一 个 丙 文 单词 并 且 不 算 太 长 ， 那 么 由 于 没有 太 多 的 组 合 ， 一 人 台 快 
速 的 家 用 计算 机 就 可 以 搞定 ， 因 此 这 种 方法 是 行 之 有 效 的 。 现 在 ， 假 设 每 
个 权重 在 -1 和 +1 之 间 有 1 000 种 可 能 的 值 ， 如 0.501、-0.203 和 0.999。 那 么 对 
于 3 层 、 每 层 3 个 节点 的 神经 网 络 ， 我 们 可 以 得 到 18 个 权重 ， 因 此 有 18 000 
种 可 能 性 雷 要 测试 。 如 果 有 一 个 相对 典型 的 神经 网 络 ， 每 层 有 500 个 节 点 ， 
那么 我 们 需要 测试 5 亿 种 权重 的 可 能 性 。 如 果 每 组 组 合 需 要 花费 1 秒 钟 计 
算 ， 那 么 对 于 一 个 训练 样本 ， 我 们 需要 人 花费 16 年 更 新 权重 ! 对 于 1 000 种 训 
练 样 本 ， 我 们 要 花费 16 000 年 ! 


你 会 友 现 这 种 景 力 方法 不 切实 际 。 事 实 上 ， 妆 我 们 增加 网 络 层 、 市 所 
和 权重 的 可 能 值 时 ， 这 种 方法 马上 残 变 得 不 可 收拾 了 。 


数学 家 多 年 来 也 未 解决 这 个 难题 ， 直 到 20 世 纪 60 年 代 到 70 年 代 ， 这 个 
难题 才 有 了 切实 可 行 的 求解 办 法 。 虽 然 对 于 谁 最 先 解 出 了 这 个 难题 或 做 出 
了 关键 性 的 突破 ， 大 家 莫衷一是 ， 但 是 重要 的 一 点 是 ， 这 个 迟 来 的 发 现 导 
致 了 现代 神经 网 络 爆 炸 性 的 发 展 ， 因 此 现在 的 神经 网 络 可 以 执行 一 些 令 人 
印象 深刻 的 任务 。 


那么 ， 我 们 如 何 解 决 这 样 一 个 明显 的 难题 呢 ?” 信 不 信 由 你 ， 你 已 经 得 
到 了 工具 ， 并 且 已 经 可 以 目 己 求解 这 个 难题 了 。 先 前 ， 我 们 已 经 讨论 了 求 
解 这 个 问题 的 方方面面 。 因 此 ， 让 我 们 开始 求解 这 个 难题 吧 ! 


我 们 必须 做 的 第 一 件 事 是 ， 拥 把 莫 观 主义 。 


能 够 表示 所 有 的 权重 如 何 生成 神经 网 络 输出 的 数学 表达 式 过 于 复杂 ， 
难以 束 解 。 六 多 的 权重 组 合 ， 我 们 难 忆 过 个 测试 ， 以 找到 一 可取 好 的 组 


m) 
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2%; 训练 数据 可 能 有 错误 ， 因 此 即使 我 们 的 假设 完全 正确 ， 神 经 网 络 可 以 
学 到 一 些 东 西 ， 但 却 有 身 陷 ， 神 经 网 络 本 吴 可 能 没有 足够 多 的 层 或 他 氮 ， 
不 能 正确 地 对 问题 的 解 进行 建 模 。 


这 意味 看 ， 我 们 必须 承认 这 些 限 制 ， 采 取 实 际 的 做 法 。 如 果 我 们 从 实 
际 出 友 可 以 找到 一 种 办 法 ， 虽 然 这 种 方法 从 数学 角度 而 言 并 不 完美 ， 但 是 
a AARE EE a ree tonne 
: ZR 


让 我 们 详细 解释 一 下 这 征 什么 意思 。 想 象 一 下 ， 一 个 非常 复杂 、 有 这 
峰 波 谷 的 地 形 以 及 连 强 的 群 山 峻 岭 。 在 黑 上 暗中， 伸手 不 见 五 指 。 你 知道 你 
是 在 一 个 山坡 上 ， 你 需要 a 到 坡 展 。 对 于 整个 地 形 ， 你 没有 精确 的 地 图 ， 只 
有 一 把 手电 人 简 。 你 能 做 什么 呢 ? 你 可 能 会 使 用 手电 人 简 ， 做 近 距 离 的 观察 。 
你 不 能 使 用 手电 简 看 得 更 远 ， 无 论 如 何 ， 你 肯定 看 不 到 整个 地 形 。 你 可 以 
看 到 人 对 一 块 土地 看 起 来 是 下 坡 ， 于 是 你 整 小 步 地 往 这 个 方 回 走 。 通 过 这 种 
方式 ， 你 不 需要 完整 的 地 图 ， 也 不 需要 事先 制定 路 线 ， 你 一 步 一 个 脚印 ， 
绥 慢 地 前 进 ， 慢 慢 地 下 山 。 





在 数学 上 ， 这 种 方法 称 为 梯 肛 下 降 (gradient descent) ， 你 可 以 明日 
这 是 为 什么 吧 。 在 你 迈 出 一 步 之 后 ， 再 次 观察 周围 的 地 形 ， 看 看 你 下 一 步 
往 哪 个 方 回 走 ， 才 能 更 接近 目标 ， 然 后 ， 你 束 往 那个 方 回 走出 一 步 。 你 一 
和 直 你 持 这 种 方式 ， 直 到 非常 欣喜 地 到 达 了 山 克 。 梯 上 度 是 指 地 面 的 坡度 。 你 


走 的 方 同 古 最 陡 的 坡度 同 下 的 方 问 。 


现在 ， 想 象 一 下 ， 这 个 复 林 的 地 形 是 一 个 数学 函数 。 构 度 下 降 法 给 我 
们 市 来 一 种 能 力 ， 即 我 们 不 必 完 全 理解 复 森 的 函数 ， 从 数学 上 对 函数 进行 
求解 ， 束 可 以 找到 最 小 值 。 如 末 函 数 非 第 困难 ， 我 们 不 能 用 代数 轻松 找到 
最 小 值 ， 我 们 惑 可 以 使 用 这 个 方法 来 代 兰 代数 方法 。 当 然 ， 由 于 我 们 采用 
步 进 的 方式 接近 管 案 ， 一 后 一 乓 地 改进 所 在 的 位 置 ， 因 此 这 可 能 无 法 给 出 
精确 解 。 但 是 ， 这 比 得 不 到 答 守 要 好 。 总 之 ， 我 们 可 以 使 用 更 小 的 步子 朝 
人 


这 种 酷 米 的 梯度 下 降 法 与 神经 网 络 之 间 有 什么 联系 呢 ? 好 吧 ， 如 本 我 
们 将 复 森 困难 的 函数 当 作 网 络 误 焉 ， 那 么 下 山 找到 最 小 值 就 意味 看 最 小 化 
误 鞋 。 这 梓 我 们 束 可 以 改进 网 络 输出 。 这 束 是 我 们 希望 似 到 的 ! 


为 了 正确 理解 梯度 下 降 的 思想 ， 让 我 们 使 用 一 个 超级 简单 的 例子 来 演 
示 一 下 。 


”下 图 显示 了 一 个 简单 的 函数 y= (x -1) 2+ 1。 如 果 在 这 个 函数 中 ，y 表 
示 误 差 ， 我 们 希望 找到 x ， 可 以 最 小 化 y 。 现 在 ， 我 们 假装 这 不 是 一 个 简单 
的 函数 ， 而 是 一 个 复杂 困难 的 函数 。 


y= (x-1)+] 





要 应 用 标 度 下 降 的 方法 ， 我 们 必须 找 一 个 起 扣 。 上 图 显示 了 随机 选择 
的 起 点 。 融 像 登 山 者 ， 我 们 正 站 在 这 个 地 方 ， 环 顾 四 周 ， 观 察 哪个 方 同 是 


品 下 的 。 在 图 上 标记 了 当前 情况 下 的 斜 紊 ， 其 斜率 为 人 负 。 我 们 布 望 沿 看 问 
FWS, KERIA MA. Eie. RAe x 的 值 。 这 
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我 们 假设 在 才 个 地 方 开始 ， 如 下 图 所 示 。 


y=(x-1)41 


斜率 为 正 
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我 们 稍微 减 小 x {eo TARE, PRAY AUS PE Ae SMA. TA) ASE AY 
最 小 值 徘 近 了 一 些 。 我 们 可 以 继续 这 样 操 作 ， 下 到 几乎 不 能 改进 为 止 ， 这 
样 我 们 就 确信 已 经 到 达 了 最 小 值 。 


我 们 要 改变 步子 大 小 ， 如 免 超 调 ， 这 样 驶 会 避免 在 最 小 值 的 地 方 来 回 
反弹， 这 是 一 个 必要 有 的 优化 。 你 可 以 想象 ， 如 果 我 们 距离 真正 的 最 小 值 只 
有 0.5 米 ， 但 是 采用 2 米 的 步 长 ， 那 么 由 于 问 最 小 值 的 方 回 走 的 每 一 步 都 超 
过 了 最 小 值 ， 我 们 束 会 错过 最 小 值 。 如 末 我 们 调 市 步 长 ， 与 梯度 的 大 小 成 
比例 ， 那 么 在 接近 最 小 值 时 ， 我 们 就 可 以 及 用 小 步 长 。 这 一 假设 的 基础 
E SEAN BTR MAIN, BRAC OPE S o WEARS BOGE WEE K 
数 ， 这 个 假设 是 合适 的 。 但 是 对 于 有 时 突然 一 跃 而 起 、 有 时 突然 急剧 下 降 
的 锯齿 函数 而 言 ， 也 融 是 说 存在 数学 家 所 说 的 间断 点 ， 这 不 是 一 个 合适 的 


假 议 。 


下 和 面 我 们 将 详细 说 明 ， 当 函数 栎 大 变 得 较 小 时 调节 步 长 的 这 种 思想 ， 
图 数 袖 度 是 在 何 种 程度 上 接近 最 小 值 的 民 好 指标 。 


y= (x-1)+] 







陡峭 的 梯度 


中 等 的 梯度 


较 小 步 长 É. 


平缓 的 梯 E 
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WEA), MEMET, RIMER REA DAI x 值 ? TE 
及 意味 着 减 小 x , PAREREA Ix 。 国 图 可 以 让 这 个 现象 变 得 很 清晰 ， 
BERR RA BWAR, HAERA BIE 


当 使 用 标 度 下 降 的 方法 时 ， 我 们 一 般 不 使 用 代数 计算 出 最 小 什 ， 我 们 
IB2Re BB Biky = (x -1)“+ 1 是 一 个 非常 复杂 困难 的 函数 。 即 使 不 使 用 数学 精 
硝 计 算出 笠 率 ， 我 们 也 可 以 合计 出 笠 诸 ， 在 我 们 往 一 般 的 正确 方 癌 移动 
时 ， 你 可 以 肥 现 这 种 方法 也 非常 适用 。 


L RAA IREEN, STERE eee 现 出 它 的 亮点 。y 也 许 不 
单单 取决 于 x ，y 也 可 能 取决 于 a、b、c、d、e 和 f。 记 得 输出 函数 吧 ， 神 经 
网 络 的 误差 葬 娄 取决 于 许多 的 权重 参数 ， 这 些 参数 通 党 有数 百 个 呢 | 


同样 ， 下 和 面 我 们 将 使 用 稍微 复杂 的 、 依 赖 2 个 参数 的 函数 ， 评 细 说 明 枚 
度 下 降 法 。 这 可 以 使 用 三 维 空 间 来 表示 ， 同 时 使 用 高 来 表示 函数 的 值 。 
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观察 这 个 三 维 曲面 ， 你 可 以 再 次 思考 ， 梯 度 下 降 十 任 会 终止 于 右 侧 的 
万 一 个 山谷 。 事 实 上 ， 在 更 一 般 的 意义 上 进行 思考 ， 由 于 复杂 的 函数 有 众 
多 的 山谷 ， 标 度 下 降 有 时 会 卡 在 错误 的 山谷 中 吗 ? 这 个 错误 的 山谷 是 哪 一 
个 呢 ? 管 案 是 肯定 的 ， 这 种 情况 可 能 会 肥 生 ， 也 束 古 我 们 所 到 达 的 山谷 可 
能 个 是 最 低 的 山谷 。 


为 了 避免 终止 于 错误 的 山谷 或 错误 的 函数 最 小 值 ， 我 们 从 山上 的 不 同 
氮 开 始 ， 多 次 训练 神经 网 络 ， 确 保 并 不 总 是 终止 于 错误 的 山谷 。 不 同 的 起 
始 反 意味 看 选择 不 同 的 起 始 参 数 ， 在 神经 网 络 的 情况 下 ， 这 意味 看 选择 不 
间 的 起 始 链接 权重 。 


下 面 详细 说 明了 使 用 梯度 下 降 方 法 的 三 种 不 同 答 试 ， 其 中 有 一 次 ， 这 


种 方法 终止 于 错误 的 山谷 中 。 
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让 我 们 暂停 ， 整 理 一 下 思路 。 








神经 网 络 的 输出 是 一 个 极其 复杂 困难 的 函数 ， 这 个 函数 具有 许多 参数 
影 啊 到 其 输出 的 链接 权重 。 我 们 可 以 使 用 梯度 下 降 法 ， 计 算出 正确 的 权重 
吗 ? 只 要 我 们 选择 了 合适 的 误差 国 数 ， 这 是 完全 可 以 的 。 


神经 网 络 本 吴 的 得 出 函数 不 是 一 个 误差 图 数 。 但 我 们 知道 ， 由 于 误差 
是 目标 训练 值 与 实际 输出 值 乙 间 的 委 值 ， 因 此 我 们 可 以 很 容易 地 把 输出 函 
BUC MAR Ze EA BL o 


此 处 ， 我 们 要 注意 一 些 事情 。 观 察 下 表 ， 这 是 3 个 输出 节点 的 目标 值 和 
实际 值 以 及 误差 函数 的 候选 项 。 
REA 
(目标 值 -实际 值 )“ 





误差 国 数 的 第 一 个 候选 项 是 《“ 目 标 值 -实际 值 ) ， 非 钊 简单 。 这 似乎 足 
够 合理 了 ， 对 吧 ? 如 果 你 观察 对 所 有 节 氮 的 误 莽 之 和 ， 以 判断 此 时 网 络 是 
个 得 到 了 很 好 的 训练 ， 你 会 看 到 总 和 为 0! 


这 征 如 何 及 生 的 呢 ? 很 显然 ， 由 于 醒 两 个 节 扣 的 输出 值 与 目标 值 不 
问 ， 这 个 网 络 没有 得 到 很 好 的 训练 。 (Foe, HIE MRA BRA, RA] 
fe BRAMAN A0. BAAS ECAR PATE IER IRA A CE 
互相 抵消 ， 这 也 很 明显 不 符合 实际 情况 ， 由 此 你 也 可 以 明日 这 不 是 一 个 很 
好 的 测量 方法 。 


为 了 纠正 这 一 点 ， 我 们 采用 差 的 绝对 值 ， 即 将 其 写成 | 目标 值 - 实 际 
(HI, 这 意味 着 我 们 可 以 无 视 从 号。 由 于 误差 不 能 互相 抵消 ， 这 可 能 行 得 
通 。 由 于 斜率 在 最 小 值 附 近 不 是 连续 的 ， 这 使 得 梯度 下 降 方法 无 法 很 好 地 
发 挥 作 用 ， 由 于 这 个 误 兰 图 数 ， 我 们 会 在 V 形 山谷 附近 来 回 跳动 ， 因 此 这 


个 误 磊 函数 没有 得 到 广泛 应 用 。 在 这 种 情况 下 ， 即 使 接近 了 最 小 值 ， 冬 率 
SO 
J 风险。 


第 三 种 选择 是 差 的 平方 ， 即 (目标 值 -实际 值 )“。 我 们 更 喜欢 使 用 第 
三 种 误差 函数 ， 而 不 喜欢 使 用 第 二 种 误差 函数 ， 原 因 有 以 下 几 点 : 


。 使 用 误 友 的 平方 ， 我 们 可 以 很 容易 使 用 代数 计算 出 标 度 下 降 的 斜率 。 

。 误 看 子 数 平 消 连 续 ， 这 使 得 梯度 下 降 法 很 好 地 友 挥 作用 一 一 没有 间 
It, EA RAIN DEE o 
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长 ， 超 调 的 风险 融会 变 得 较 小 。 


征 否 有 第 四 个 选项 呢 ? 有 ， 你 可 以 构造 各 种 各 样 的 复 洒 有 趣 的 代价 函 
数 。 一 些 函 数 可 能 完全 行 不 通 ， 一 些 函 数 可 能 对 特定 类 型 的 问题 起 作用 ， 
一 些 能 够 友 挥 作用 的 函数 ， 可 能 由 于 额外 的 复杂 上 度 而 有 乓 个 值得 。 


现在 ， 我 们 已 经 跑 到 了 最 后 一 较 ， 即 将 到 运 终点 了 ! 


要 使 用 饥 度 下 降 的 方法 ， 现 在 我 们 需要 计算 出 误 兰 国 数 相对 于 权重 的 
和 糙 率 。 这 需要 微 积 分 的 知识 。 你 可 能 已 经 对 微 积 分 比较 熟悉 了 了， 但 是 如 琳 
你 还 不 缉 芒 人 敏 积分 或 者 需要 近 示 ， 那 么 附录 A 中 包含 了 一 个 向 积分 的 简单 
介绍 。 微 积分 使 用 狂 确 的 数学 方式 ， 计 算出 当 一 些 变量 改变 时 ， 其 他 应 变 
量 如 何 改变 。 例 如 ， 当 在 弹 贰 上 施加 一 个 伸展 力 时 ， 弹 费 的 长 度 如 何 变 
化 。 此 处 ， 我 们 感 兴趣 的 是 ， 误 差 国 数 是 如 何 依赖 于 神经 网 络 中 的 链接 权 
和 
局 
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么 我 们 束 从 图 形 开始 吧 。 


Error 


神经 网 络 误 老 
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此 图 与 我 们 先前 看 到 的 图 一 样 ， 主 要 是 强调 我 们 所 做 的 事情 没有 什么 
不 同 。 这 一 次 ， 我 们 希望 最 小 化 的 是 神经 网 络 的 误 天 函数 。 我 们 试图 优化 
的 参数 是 网 络 链接 权 下 。 在 这 个 简单 的 例子 中 ， 我 们 只 演示 了 一 个 权重 ， 
但 是 我 们 知道 神经 网 络 有 众多 权重 参数 。 


下 图 显示 了 两 个 链接 权重 ， 这 次 ， 误 兰 国 数 是 三 维 曲面 ， 这 个 曲面 随 
看 两 个 链接 权重 的 变化 而 变化 。 你 可 以 看 到 ， 我 们 努力 最 小 化 误 苦 ， 现 
在 ， 这 有 点 像 在 多 山 的 地 形 中 寻找 一 个 山谷 。 


Error 





SRBAASSEBUN, SE Ze HE TAI AY BOE, (EL ce 1 HD BE 
降 寻 找 最 小 值 的 思想 是 相同 的 。 


让 我 们 使 用 数学 的 方式 ， 写 下 想 要 取得 的 目标 。 


这 个 表达 式 表示 了 当权 重 wk 改变 时 ， 误 差 E 是 如 何 改变 的 。 这 是 误差 
函数 的 斜率 ， 也 束 是 我 们 希望 使 用 标 度 下 降 的 方法 到 达 最 小 值 的 方 回 。 

在 我 们 求解 表达 式 之 前 ， 让 我 们 只 关注 隐藏 层 和 好 终 输出 层 之 间 的 链 
接 权 重 。 下 图 突出 显示 了 我 们 所 感 兴趣 的 这 个 区 域 。 我 们 将 重 回 输 入 层 和 
隐藏 层 之 间 的 链接 权重 。 


节点 误差 = 目标 值 - 实际 值 


e UU-0, 
-一 一 一 依 =l j| J — > k=l ey a 
N A 
Wiljjec, O 
A 输出 层 
T h 
N 
es =2 人 一 一 一 j=2 en 





隐藏 层 节点 输出 
X 


在 进行 微 积分 计算 时 ， 我 们 会 时 不 时 地 返回 来 参照 此 图 ， 以 确保 我 们 
没有 环 记 每 个 符号 的 真正 含义 。 旋 者 请 不 要 被 吓 倒 而 囊 足 不 前 ， 这 个 过 程 
并 不 困难 ， 我 们 还 会 进行 解释 ， 我 们 先前 已 经 介绍 了 所 有 上 所 需 的 概念 。 

首先 ， 让 我 们 展开 误差 图 数 ， 这 是 对 目标 值 和 实际 值 之 差 的 平方 进行 
求 和 和， 这 是 针对 所 有 n 个 输出 节点 的 和 。 

7 = 8 s(t-oy 
OW, | OW, | 


EEA, BOTA — I, ize PSE PRR Ze PR BLE 
FER, FETS AME HO, 只 取决 于 连接 到 这 个 市 点 的 链接 ， 因 此 我 们 


FY AEP PIA TL. KARA, FE E ce BEF AT AKA 
E, ALEC AKA TA LH op Vie hw, 


BEAT AY MEH 53 TT RA Fe de, A h AAR 
wjb， 其 中 ， 由 于 b 和 k 之 间 没 有 链接 ， 因 此 b 与 k 无 关联 。 权 重 wib 是 连接 输 


出 节点 b 的 链接 权重 ， 而 不 是 输出 节点 k 的 链接 权重 。 


这 意味 着 ， 除 了 权重 wjk 所 链接 的 节点 (也 束 是 ok ) 外， 我 们 可 以 从 
和 中 删除 所 有 的 o, ， 这 束 完 全 删除 了 令 人 厌烦 的 求 和 运 寅 。 这 是 一 个 很 有 
用 的 技巧 ， 值 得 保留 下 来 收入 寺中 ，。 


如 末 你 吃 了 咖啡 ， 头 脑 比较 清醒 ， 你 可 能 已 经 意识 到 ， 这 意味 看 误差 
黄 数 根本 就 不 需要 对 所 有 输出 节操 求 和 。 原 因 是 市 点 的 输出 只 取决 于 所 连 
接 的 链接 ， 吏 是 取 雇 于 链接 权重 。 这 个 过 程 在 许多 教科 书 中 一 略 而 过 ， 这 
些 教科 书 只 是 简单 地 声明 了 误差 图 数 ， 却 没有 解释 原因 。 


无 论 如 何 ， 我 们 现在 有 了 一 个 相对 简单 的 表达 式 了 。 


现在 ， 我 们 将 进行 一 点 微 积 分 计算 。 记 住 ， 如 果 你 不 熟悉 微 积分 ， 可 
以 参考 附录 A。 


tk 的 部 分 古 一 个 第 数 ， 因 此 它 不 会 随 看 wj, 4 的 变化 而 变化 。 也 束 古 
Ui, t 个 是 wj, k 的 函数 。 仁 细 想 想 ， 如 末 真 实 示 例 所 提供 的 目标 值 根 据 权 


重 变 化 ， 就 太 让 人 匪夷所思 了 ! 由 于 我 们 使 用 权重 前 馈 信号 ， 得 到 输出 值 
ok ， 因 此 这 个 表达 式 留 下 了 我 们 所 知 的 依赖 于 wj 的 ok 部 分 。 


nn 将 这 个 微 积分 任务 分 解 成 更 多 易于 管理 的 小 


再 次 参考 附录 的 链 陈 法 则 介绍 
OE _ 2E 00, 


aw, 20, aw, 


现在 ， 我 们 可 以 反 过 来 对 相对 简单 的 部 分 各 个 击破 。 我 们 对 平方 函数 
LA 
JAT: 


2E = -2(t, -0,) . 2. 
OW | OW | 


对 于 第 二 项 ， 我 们 需要 仔细 考虑 一 下 ， 但 十 无 需 考 虑 过 信 。Ook ET 
k 的 输出 ， 如 末 你 还 记得 ， 这 是 在 连接 输入 信号 上 进行 加 权 求 和 ， 在 所 得 到 
结果 上 应 用 S 函 数 得 到 的 结果 。 让 我 们 将 这 写 下 来 ， 清 楚 地 表达 出 来 。 


E s e-o) Č sigmoid ( Z wy o) 
OW, OW 


oj z A A AAAI, 1 AN ZS ER AAT HHO, o 


我 们 如 何 微分 S 图 数 昵 ? EFA PA SEA TY ZA SEAS BAR, OTS BR IHR Gil 
分 ， 这 对 我 们 而 言 是 一 种 非常 艰辛 的 方法 ， 但 是 ， 其 他 人 已经 完成 了 这 项 
人 
事情 一 样 。 


sigmoid (X) = sigmoid (Xx) ( 1 - sigmoid ( x) ) 
OX 


在 微分 后 ， 一 些 函 数 变 成 了 非 第 可 怕 的 表达 式 。S 函 数 微分 后 ， 可 以 
得 到 一 个 非常 蚀 捍 、 易 于 使 用 的 结 来 。 在 神经 网 络 中 ， 这 是 5 函数 成 为 大 
受 欢 迎 的 激活 函数 的 一 个 重要 原因 。 


因此 ， 让 我 们 应 用 这 个 酷 米 的 结 末 ， 得 到 以 下 的 表达 却 。 


0 
= -2( t, - 0,) . sigmoid ( 2 Wi 0j ) (1 - sigmoid ( Z, Wi: 0,)) - — (Z Ww 0) 
OW: . OW . 





= -2( t, -0,) - sigmoid ( Z, W,’ 0; ) (1 - sigmoid ( 2 Wo0;)). 0, 


这 个 额外 的 最 后 一 项 是 什么 呢 ? 由 于 在 sigmoid0 函 数 内 部 的 表达 式 也 
第 要 对 wy ETT ot, ACERT T'S PR BLP FE A BERGAN o RL 
BAD, ee AR fal HA, 为 oj 。 


在 写 下 节 后 的 丛 守 之 前 ， 让 我 们 把 在 前 面 的 2 A. RITR IRAE K 
数 的 笠 率 方 癌 感 兴趣 ， 这 样 我 们 惑 可 以 使 用 梯度 下 降 的 方法 ， 因 此 可 以 去 
挥 2。 只 要 我 们 牢 牢 记 住 需要 什么 ， 在 表达 陈 前 面 的 季 殊 ， 无 论 是 2、3 还 是 
100, BERKA. Alt, BRS AB, LEST ee tel AE 


这 就 是 我 们 一 直 在 努力 要 得 到 的 最 后 答案 ， 这 个 表达 式 描述 了 误差 函 
数 的 斜率 ， 这 样 我 们 就 可 以 调整 权重 w jk 了 。 


EL 我 们 成 功 做 到了! 
这 束 古 我 们 一 卫 在 寻找 的 神 哥 表达 式 ， 也 是 训练 神经 网 络 的 关键 。 


这 个 表达 式 值得 再 次 回味 ， 闫 色 标 记 有 助 于 显示 出 表达 式 的 各 个 部 
分 。 第 一 部 分 ， 非 党 简单 ， 惑 是 《“ 目 标 值 -实际 值 ) ， 我 们 对 此 已 经 很 清和 区 
了 了。 在 sigmoid 中 的 求 和 表达 却 也 很 简单 ， 吏 是 进入 最 后 一 层 贡 氮 的 信和 已， 
我 们 可 以 称 之 为 计 ， 这 样 它 看 起 来 比较 简单 。 这 二 应 用 激活 函数 之 前 ， 进 
入 节操 的 信号 。 最 后 一 部 分 古 前 一 隐 妃 层 市 点 j 的 输出 。 读 者 要 有 一 种 章 
识 ， 明 日 在 这 个 射 紊 的 表达 式 中 ， 实 际 涉及 哪些 信息 并 最 终 优化 了 权重 ， 
因此 读者 值得 仔细 观 察 这 些 表达 式 、 这 些 项 。 


这 是 一 个 非 第 奇妙 的 结果 ， 很 多 人 难以 理解 这 些 内 容 。 我 们 应 该 为 目 
CUR BT 

我 们 还 需要 做 最 后 一 件 事 迟 。 我 们 所 得 到 的 这 个 表达 式 ， 是 为 了 优化 
多 颖 层 和 得 出 层 之 间 的 权重 。 现 在 ， 我 们 需要 完成 工作 ， 为 输入 层 和 隐藏 
JRL E IAE ER PISA RAE o 

IRE, RATA AITKEN GSR, HDU. RAJE WR 
Pia] EE A TAERE RRA TAERE ES SARER. 


。 第 一 部 分 的 “目标 值 -实际 值 ) RÆ, MERZ T hama T APEH 
问 后 传播 误 兰 ， 正 如 在 前 面 所 看 到 的 那样 。 我 们 称 之 为 ej 。 

e sigmoid 部 分 可 以 保持 不 变 ， 但 是 内 部 的 求 和 表达 式 指 的 是 前 一 层 ， 因 
A EEE EERE RI NS Same oe Ie 
称 之 为 jj 。 

。 现在 ， 最 后 一 部 分 是 第 一 层 市 点 的 输出 0; ， 这 健 巧 是 输入 信 筷 。 


这 种 巧妙 的 方法 ， 伽 单 利 用 问题 中 的 对 称 性 构建 了 一 个 新 的 表达 式 ， 
计 人 饮 了 大 量 的 工作 。 这 种 方法 虽然 很 简单 ， 但 却 是 一 种 很 强大 的 技术 ， 一 
些 天 赋 异 台 的 数学 家 和 科学 家 午 使 用 这 种 扩 术 。 你 肯定 可 以 使 用 这 个 拉 
术 ， 给 你 的 队友 留 下 深刻 印象 。 


因此 ， 我 们 一 直 在 努力 达成 的 最 终 容 采 的 第 二 部 分 如 下 所 示 ， 这 是 我 
们 所 得 到 误差 函数 料 率 ， 用 于 得 入 层 和 隐藏 层 乙 间 权 重 调整 。 


一 一 一 一 一 一 一 一 





eee A ee 


& = -(@) + sigmoid ( 2; w, 0;) (2 -sigmoid ( 2;w,;-0;,)) + 0; | 
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现在 ， 我 们 得 到 了 关于 冬 率 的 所 有 关键 的 神 可 表达 式 ， 可 以 使 用 这 些 
en EE 
| 这 一 点 。 


记 住 权重 改变 的 方 回 与 梯度 方 癌 相反 ， 正 如 我 们 在 先前 的 图 中 清楚 看 
到 的 一 样 。 我 们 使 用 学 习 因 子 ， 调 和 变化 ， 我 们 可 以 根据 特定 的 问题 ， 调 
整 这 个 学 习 因 子 。 当 我 们 建立 线性 分 类 右 ， 作 为 避免 被 错误 的 训练 样本 拉 
得 太 远 的 一 种 方式 ， 同 时 也 为 了 保证 权重 不 会 由 于 持续 的 超 调 而 在 最 小 值 
oe ee RE 
这 个 因子 。 


更 新 后 的 权重 wjk 是 由 刚刚 得 到 误差 料 率 取 反 来 调整 旧 的 权重 而 得 到 
HY. JEMISON SCRA BIEN, CORRS AE, Et AE, WRR 
BAT, Fills BH, Alt, RMNZTR RRR. TH Soe T A 
F, MAP RY PAYA RHEE RE, APR AN Sea © RANE EEA 


因子 为 学 习 率 。 


这 个 表达 式 不 仪 适用 于 隐 蕊 层 和 输出 层 之 间 的 权 童 ， 而 且 适 用 于 输入 
层 和 隐藏 层 之 间 的 权重 。 委 值 束 是 误 兰 梯度， 我 们 可 以 使 用 上 述 两 个 表达 
式 来 计算 这 个 误 基 梯度 。 


如 朵 我 们 试图 按照 沧 阵 乘法 的 形式 进行 运算 ， 堵 么 我 们 需要 看 看 计算 
A aes ne Sane eres ve Ee 
TUR o 


Aw, L Aw, 1 Aw, 1 ove E, 和 = (1 -S,) 
Aw,, A4w,, Aw,, - ETS (GS 

2, : 3, | 0. 0, o 
Aw,, 4w,, Aw, ws E,* S, (4-S,) 


人 前 一 层 的 值 


由 于 学 习 率 只 是 一 个 第 数 ， 并 没有 真正 改变 如 何 组 织 窍 阵 乘 法 ， 因 此 
RITE SF Ka. 


NENEI PEREAS, REECE] DA REAM Bw,» AANE 
链接 了 当前 层 节 所 j 与 下 一 层 节 扣 k。 你 可 以 友 现 ， 表 达 式 中 的 第 一 项 使 用 
PCR Chmk) 的 值 ， 最 后 一 项 使 用 前 一 层 〈“ 市 护 j) 的 值 。 


仔细 观察 上 图 ， 你 驶 会 肥 现 ， 表 达 陈 的 最 后 一 部 分 ， 也 就 是 单行 的 水 
“PERE, xEHU— Fo; 的 输出 的 转 置 。 颜 色 标 记 蛙 示 氮 乘 是 正确 的 方式 。 如 
朱 你 不 能 确定 ， 请 符 试 使 用 态 一 种 方式 的 氮 乘 ， 你 会 及 现 这 十 行 不 通 的 。 


因此 ， 权 重 更 新 矩阵 有 如 下 的 矩阵 形式 ， 这 种 形式 可 以 让 我 们 通过 计 
算 机 编程 语言 高 效 地 实现 矩阵 运算 。 








实际 上 ， 这 不 是 什么 复杂 的 表达 式 。 由 于 我 们 简化 了 节点 输出 o,，， 那 
些 sijgmoids 己 经 消失 了 。 


好 了 ! 任务 完成 。 


Bs 


KBEN 


。 神经 网 络 的 误差 是 内 部 链接 权重 的 函数 。 

。 改进 神经 网 络 ， 意 味 着 通过 改变 权重 减少 这 种 误差 。 

直接 选择 合适 的 权重 太 难 了 。 男 一 种 方法 是 ， 通 过 误差 冰 数 的 梯度 下 降 ， 采 取 小 步 长 ， 迭 

ee on ern Sememerm 
JEE T BEE 

。 使 用 微 积 分 可 以 很 容易 地 计算 出 误差 斜率 。 





1.15 MEE HMw pil 
我 们 来 演示 几 个 有 数字 的 示例 ， 让 读者 看 看 这 种 权重 更 新 的 方法 是 可 
以 成 功 的 。 


下 面 的 网 络 是 我 们 之 前 演示 过 的 一 个 ， 但 是 这 次 ， 我 们 添加 了 隐藏 层 
第 一 个 节点 oj -1 和 隐藏 层 第 二 个 节点 oj -> 的 示例 输出 值 。 这 些 数字 只 是 为 


aa 
yee f= JA 


了 详细 说 明 这 个 方法 而 随意 列举 的 ， 读者 不 能 通过 输入 层 前 馈 信 号 正确 计 
算得 到 它们 。 


— OOO > 
4 ~ ws 
0 020 
—> (2 A 2 证 -一 各: 


我 们 要 更 新 隐藏 层 和 输出 层 之 间 的 权重 wi11 。 当 前 ， 这 个 人 为 2.0。 
LEN EK SS RARER 


i 





一 一 一 一 一 一 一 一 一 一 


0, ) (1 - sigmoid (2 wo0)). 0 | 


Wix Oj 


OE = -(t,-0,)+ sigmoid (2 w 


— n 


OW 


ee ee See AC 


让 我 们 一 项 一 项 地 进行 运算 


。 第 一 项 (tl -0% ) {Ell iRAe | = 0.8. 
。 SRAN KRAE woj (2.0x0.4) + (3.0*0.5) = 2.3. 


e sigmoid 1/(1 + e 人) 为 0.909。 中 间 的 表达 式 为 0.909* (1-0.909) = 
0.083. 

。 由 于 我 们 感 兴趣 的 是 权重 w1 1 ， 其 中 j=1， 因 此 最 后 一 项 o; 也 很 简单 ， 
tw EO, =1 ° 此 处 ， Oj 值 承 是 0.4。 


Ix = TAS, IY AEE IATA SS, BORER 
到 -0.0265。 


如 果 学 习 率 为 0.1， 那 么 得 出 的 改变 量 为 - (0.1 * -0.02650) = + 
0.002650。 因 此 ， 新 的 wi 1 whe JR AY 2.000 0.002654: F 2.00265. 


EIR he NE SD ee, (AR ERIE IN, w 
RZE ROR, RIM A, ORE UIA R A SZ Pd 28 a oe AE MG I ER 
本 中 相同 的 输出 。 


116 ”准备 数据 


在 本 节 中 ， 我 们 要 思考 如 何 最 好 地 准备 训练 数据 ， 初 始 随机 权重 ， 甚 
全 设计 输出 值 ， 给 训练 过 程 一 个 成 功 的 机 会 。 


你 没有 看 错 ! 并 不 是 所 有 使 用 神经 网 络 的 尝试 都 能 够 成 功 ， 这 有 许多 


原因 。 一 些 问 题 可 以 通过 改进 训练 数据 、 初 始 权重 、 设 计 民 好 的 得 出 方案 
来 解决 。 让 我 们 逐个 讨论 。 


1.16.1 输入 


仔细 观察 下 图 的 S 激 活 函 数 。 你 可 以 友 现 ， 如 果 输 入 变 大 ， 激 活 函 数 
BL Ze Be Fer AF Fe “PH 






大 的 x 值 ， 小 的 梯度 
( 减 小 学 习 能 力 ) 


由 于 我 们 使 用 柳 度 学 习 新 的 权重 ， 因 此 一 个 平坦 的 激活 函数 会 出 问 


题 。 

加 头 仔细 观察 天 于 权重 变化 的 表达 了 式 。 权 重 的 改变 取 次 于 激活 函数 的 
榜 度 。 小 梯度 意味 着 限制 神经 网 络 学 习 的 能 力 。 这 束 是 所 谓 的 饱和 神经 网 
络 。 这 意味 痢 ， 我 们 应 该 尽量 傈 持 小 的 输入 。 


有 趣 的 是 ， 这 个 表达 式 也 取决 于 输入 信号 (ol ) ， 因 此 ， 我 们 也 不 应 


该 让 输入 信号 太 小 。 当 计算 机 处 理 非常 小 或 非常 大 的 数字 时 ， 可 能 会 交 拓 
精度 ， 因 此 ， 使 用 非常 小 的 值 也 会 出 现 问 题 。 


一 个 好 的 建议 是 重新 调整 输入 值 ， 将 其 范围 控制 在 0.0 到 1.0。 输 入 0 会 
将 oj 设置 为 0， 这 样 权 重 更 新 表达 式 就 会 等 于 0， 从 而 造成 学 习 能 力 的 丧 
失 ， 因 此 在 某 些 情况 下 ， 我 们 会 将 此 输入 加 上 一 个 小 小 的 偏 移 ， 如 0.01， 
避免 输入 0 带 来 麻烦 。 


1.16.2 输出 


神经 网 络 的 输出 是 最 后 一 层 广 点 弹出 的 信号 。 如 果 我 们 使 用 的 煌 活 函 
数 不 能 生成 大 于 1 的 值 ， 那 么 尝试 将 训练 目标 值 设置 为 比较 大 的 值 就 有 点 丫 
酉 】 了 。 请 记 住 ， 逻 辑 困 数 甚 至 不 能 取 到 1.0， 只 能 接近 1.0。 数 学 家 称 之 为 湖 
v1.0. 


Bis 72 He, EE BR OC HY Fan LH TEAR AS AS FY EA 1.0. hF 


激活 函数 输 
a 出 范围 之 外 






激活 明 数 输出 
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如 果 我 们 将 目标 值 设 置 在 这 些 不 可 能 达到 的 范围 ， 训 练 网 络 将 会 驱使 
更 大 的 权重 ， 以 获得 越 来 越 大 的 输出 ， 而 这 些 输出 实际 上 是 不 可 能 由 激活 
遇 数 生成 的 。 这 使 得 网 络 饱 和 ， 因 此 我 们 知道 这 种 情况 是 很 糖 糙 的 。 

因此 ， 我 们 应 该 重新 调整 目标 值 ， 匹 配 激活 函数 的 可 能 和 输出， 注意 避 
开 激 活 函 数 不 可 能 达到 的 值 。 


虽然 ， 常 见 的 使 用 范围 为 0.0 一 10， 但 是 由 于 0.0 和 1.0 这 两 个 数 也 不 可 


能 是 目标 值 ， 并 且 有 驱动 产生 过 大 的 权重 的 风险 ， 因 此 一 些 人 也 使 用 0.01 
一 0.99 的 范围 


1.16.3 ”随机 初始 权重 


与 输入 和 输出 一 样 ， 同 样 的 道理 也 适用 于 初始 权重 的 设置 。 由 于 大 的 
急 好 权 音 会 造成 大 的 信号 传递 给 激活 函数 ， 导 致 网 络 饮 和， 从 而 降低 网 络 
学 习 到 更 好 的 权重 的 能 力 ， 因 此 应 该 避免 大 的 初始 权重 值 。 


我 们 可 以 从 -1.0 一 +1.0 之 间 随 机 均匀 地 选择 初始 权重 。 比 起 使 用 非常 大 
的 范围 ， 比 如 说 -1000 一 +1000， 这 是 一 个 好 得 多 的 思路 。 


我 们 能 做 得 更 好 吗 ? 也 许 吧 。 


对 于 给 定 特 定形 状 的 网 络 以 及 特定 的 激活 函数 ， 数 学 家 和 计算 机 科学 
家 曾 进 行 过 数学 计算 ， 制 定 出 了 经 验 法 则 ， 设 置 了 随机 初始 权重 。 这 是 非 
第 “特定 的 ”! 无 论 如 何 ， 让 我 们 继续 前 进 吧 。 


在 此 处 ， 我 们 不 纠结 于 计算 细节 ， 但 是 ， 其 核心 思想 是 ， 如 果 很 多 信 
号 进入 一 个 节点 〈 这 也 是 在 神经 网 络 中 出 现 的 情况 ) ， 并 且 这 些 信 号 的 表 
现 已 经 不 错 了 ， 不 会 太 大 ， 也 不 会 分 布 得 奇 奇 怪 怪 ， 那么 在 对 这 些 信号 进 
行 组 合并 应 用 激活 函数 时 ， 权重 应 该 支持 保持 这 些 表现 恨 好 的 信号 。 换 名 
话说 ， 我 们 不 希望 权重 破坏 了 精心 调整 输入 信号 的 努力 。 数 学 家 所 得 到 的 
经 验 规则 是 ， 我 们 可 以 在 一 个 节点 传 入 链接 数量 平方 根 倒数 的 大 致 范围 内 
随机 采样 ， 初 始 化 权重 。 因 此 ， 如 果 每 个 节点 具有 3 条 传 入 链接 ， 那 么 初始 
权重 的 范围 应 该 在 从 -LV3 到 +1/v3 ， 即 +0. 577 之 间 。 如 果 每 个 节点 具有 
100 条 传 入 链接 ， 那 么 权重 的 范围 应 该 在 -1/V100 至 +1l/v100 ， 即 +0.1 之 


Lik 
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置 激活 函数 非 第 大 的 权 午 将 会 使 油 活 函数 饱和 。 一 个 市 把 的 传 入 链接 越 
多 ， 就 有 越 多 的 信号 被 登 加 在 一 起 。 因 此 ， 如 采 链 接 更 多 ， 那 么 减 小 权重 
的 范围 ， 这 个 经 验 法 则 是 有 道理 的 。 


如 由 你 已 经 熟悉 从 概率 分 布 中 进行 洒 样 的 思想 ， 那 么 这 一 经 验 法 则 实 
际 上 讲 的 是 ， 从 均 信 为 0(、 标 准 方差 等 于 节 氮 传 入 链接 数量 平方 根 倒数 的 正 
态 分 布 中 进行 采样 。 但 征 ， 由 于 经 验 法 则 所 假说 的 一 些 事 情 ， 如 可 蔡 代 的 


激活 函数 tanhO、 和 输入 信号 的 特定 分 布 等 ， 可 能 不 是 真 的 ， 因 此 ， 我 们 不 必 
太 担 心 要 精确 正确 地 理解 这 个 法 则 。 


下 图 总 结 了 简单 的 方法 和 比较 复杂 的 正 态 分 布 方法 。 


选取 接近 于 0 的 
权重 的 仿 移 值 


初始 权重 的 范围 











e > 初始 权重 
ai + | 
\( 传 入 链接 ) ( 传 入 链接 ) 


”不 定 你 做 什么 ， 茶 止 将 初始 权 章 设 定 为 相同 的 恒定 值 ， 特 列 是 茶 止 将 
AURAL WIE AO. BANK, SHAS ACTS IR TATE 
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CMT TA EE tee PA, FER SR BIE N A 
ROME TERE ETL, REDEFINED. URINAL TRA EL Poll 
行 分 割 吧 ! ABA, KRFA E E FE Bl BASE 
权重 。 由 于 正确 训练 的 网 络 应 该 具有 不 等 的 权重 《对 于 几乎 所 有 的 问题 ， 
这 十 极 有 可 能 的 情况 ) ， 那 么 由 于 这 种 对 称 性 ， 你 将 永远 得 不 到 这 种 网 
络 ， 因 此 这 征 一 种 很 粳 糙 的 情况 。 


由 于 0 权重 ， 和 输入 信号 归 零 ， 取 决 于 输入 信号 的 权重 更 新 函数 也 因此 归 
零 ， 这 种 情况 更 糟糕 。 网 络 完 全 丧失 了 更 新 权重 的 能 


你 还 可 以 做 许多 其 他 的 事情 ， 对 如 何 准 备 输 入 数据 、 设 置 权 重 、 组 织 
所 圾 的 输出 进行 优化 。 在 本 书 中 ， 以 上 的 思想 很 容易 理解 ， 也 可 以 得 到 一 
个 相当 好 的 效 末 ， 因 此 ， 我 们 残 此 打住 。 





第 2 彰 ” 使 用 Python 进行 DIY 


“A LRA Tee, ZERIT.” 
“不 积 哇 步 ， 无 以 至 千里 。” 
在 本 节 中 ， 我 们 将 杀 目 动手 制作 神经 网 络 。 


下 如 你 先前 所 了 解 到 的 ， 这 和 宕 要 进行 海量 的 计算 ， 因 此 我 们 将 使 用 一 
台 计 算 机 。 计 算 机 可 以 不 知 疲 众 、 人 准确 快速 地 进行 大 量 计算 。 


我 们 会 使 用 计算 机 理解 的 指令 ， 告 诉 计算 机 做 些 什 么 。 计 算 机 难以 准 
确 而 正确 地 理解 人 类 语言 ， 如 英语 、 法 语 或 西班牙 语 。 事 实 上 ， 当 人 们 互 
相交 流 时 ， 要 精确 而 正确 地 理解 对 方 ， 也 可 能 会 过 到 困难 ， 在 这 方面 ， 计 
算 机 不 可 能 比 人 类 表现 得 更 加 出 色 。 


2.1 Python 


我 们 将 使 用 一 种 叫做 Python 的 计算 机 语言 。 由 于 Python 人 简单 多 学 ， 因 
此 它 是 一 种 合适 的 入 门 语言 。 阅 读 和 理解 其 他 人 编写 的 Python 的 指令 ， 也 
是 很 容 匈 的 。Python 很 党 欢迎 ， 应 用 在 许多 不 同 的 领域 ， 包 括 科 研 、 教 
学 、 全 球 玫 围 内 的 基础 设施 、 数 据 分 析 和 人 工 和 贸 能 领域 。 在 学 校 中 ， 人 们 
越 来 越 多 地 开始 教授 Python， 极 受 欢 迎 的 树 每 派 使 得 Python 为 更 多 的 人 可 
用 ， 包 括 儿 重 和 学 生 。 


附录 B 包 括 了 一 个 指南 ， 指 导读 者 设置 树 侮 派 Zero， 完 成 本 书 所 介绍 
的 使 用 Python 制作 目 己 的 神经 网 络 的 工作 。 树 春 派 Zero 是 物美 价 廉 的 小 型 
计算 机 ， 目 前 的 价格 为 4 英镑 或 5 美元 。 注 意 ， 这 不 是 拼写 错误 ， 它 确实 只 
SLATE o 

关于 Python 或 任何 其 他 计算 机 语言 ， 虽 然 你 要 学 习 的 内 容 还 很 多 ， 但 
是 ， 在 本 书 中 ， 我 们 只 是 关注 制作 神经 网 络 ， 只 学 习 足 够 的 Python 知识 来 
实现 这 一 目标 。 


2.2 交互 式 Python = IPython 


我 们 无 需 通 过 易 出 错 的 步骤 为 计算 机 安装 Python， 以 及 进行 数学 计算 
和 画图 所 需 的 各 种 扩展 包 。 在 这 里 ， 我 们 将 使 用 一 个 预先 打包 的 解决 方 
案 ， 称 为 IPython。 


IPython 中 包含 了 了 Python 编程 语言 以 及 几 种 常见 的 数字 和 数据 绘图 扩展 
包 ， 这 包括 了 我 们 需要 的 工具 。IPython 也 有 一 些 优势 ， 如 交互 式 
Notebook， 这 种 交互 式 Notebook 的 行为 束 像 笔 和 纸 质 记事 本 ， 非 党 适合 符 
试 我 们 的 想法 ， 让 我 们 立即 看 到 结果 ， 然 后 再 次 改变 一 些 想 法 ...... 操作 非 
常 容易 ， 不 人 花哨。 这 样 ， 我 们 不 必 担 心 程 序 文 件 、 解 释 器 和 程序 库 会 分 散 
注意 力 ， 从 而 干扰 了 我 们 正在 尝试 的 事情 ， 特 别 是 当 这 些 程 序 不 能 按 预 期 
工作 的 时 候 ， 更 是 如 此 。 


这 个 ipython.org 网 站 可 以 提供 一 些 选项 ， 告 诉 你 从 何 处 获得 预先 打包 
的 IPython。 我 正在 使 用 的 是 从 www.continuum.io/downloads 下 载 的 
Anaconda 包 ， 如 下 图 所 示 。 


Anaconda for Windows 
a 


PYTHON 2.7 PYTHON 3.5 


Windows 64-bit | Windows 64-bit 


921M 





Windows Anaconda Installation 


1. Download the installer. 
2. Double-click the .exe file to install Anaconda and follow the instructions on the screen. 


3. Optional: Verify dat 


Anaconda for OS X 
a 


PYTHON 2.7 PYTHON 3.5 





Mac OS X 64-bit | Mac OS X 64-bit 


这 个 网 站 的 页 面 可 能 已 经 改变 了 外 形 ， 因 此 ， 如 果 友 现 网 站 改变 了 ， 
请 不 要 怀疑 。 首 先 ， 找 到 与 你 的 计算 机 系统 兼容 的 版 本 ， 这 可 能 是 
Windows #2. 34K MachJOS X 系 统 或 Linux 系 统 。 找 到 对 应 的 系统 后 ， 确 
保 你 下 载 的 是 Python 3.5 版 本 ， 而 不 是 Python 2.7 版 本 。 


采用 Python 3 是 大 势 所 趋 ， 这 是 未 来 的 方 回 。 虽 然 Python 2.7 版 已 经 得 
到 了 大 家 的 认可 ， 但 是 我 们 需要 展望 未 来 ， 尽 可 能 地 使 用 Python 3， 特 别 
是 对 于 新 项 目 而 言 。 大 多 数 计 算 机 是 64 位 的 芯片 ， 因 此 ， 请 确定 你 所 下 载 
—e 的 。 只 有 大 约 10 多 年 前 的 计算 机 才 有 可 能 需要 32 位 的 
IA r 
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用 而 设计 的 ， 因 此 安装 IPython 应 该 很 简单 ， 不 会 造成 任何 问题 。 


2.3 ”优雅 地 开始 使 用 Python 


我 们 假设 你 现在 有 机 会 获得 IPython， 并 根据 安装 说 明 顺 利安 装 了 软 


2.3.1 Notebook 
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Notebook， 如 下 所 示 。 


ee J u pyte 上 Untitled1 Last Checkpoint: a few seconds ago (autosaved) 


o (i 
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In jsn 


这 个 Notebook 是 交互 式 的， 这 意味 看 它 等 得 你 提出 要 求 ， 拓 出 要 做 的 
事情 ， 然 后 ，Notebook 束 执行 这 些 命 令 ， 并 在 Notebook 中 给 出 答案 。 然 
后 ， 再 次 等 待 你 的 下 一 条 指令 或 问题 。 这 融 像 一 人 台 有 具有 计算 天 赋 、 不 知 站 
PEL DLAs AE A o 


如 果 你 想 做 的 事情 相对 复杂 ， 那 么 将 这 个 问题 分 解 为 几 个 部 分 比较 合 
理 。 退 过 这 种 方式 ， 你 可 以 相对 容易 地 组 织 思 想 ， 同 时 也 比较 容易 找到 大 
工程 的 哪 一 部 分 出 了 问题 。 对 于 IPython 而 言 ， 我 们 称 这 些 部 分 为 单元 格 
Ccell) 。 如 果 上 述 IPython Notebook 有 一 个 初始 的 空 单元 格 ， 那 么 你 可 以 
看 到 闪烁 的 输入 插入 符号 ， 等 竺 你 输入 指令 。 


让 我 们 指示 计算 机 做 一 些 事 情 吧 ! 我 们 要 求 计算 机 进行 两 个 数 相 乘 的 
运算 ， 比 如 说 ，2 乘 以 3。 我 们 输入 “2 * 3” 到 单元 格 中 ， 单 击 运行 单元 格 按 
钮 ， 这 个 按钮 看 起 来 像 一 个 音频 播放 按钮 。 请 记 住 ， 不 要 和 输入 引号 。 计 算 
机 可 以 快速 理解 你 的 意思 ， 在 屏幕 上 返回 答案 ， 如 下 所 示 。 


C J u pyte F Untitled1 Last Checkpoint: 6 minutes ago (unsaved changes) 
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In [1]: 2 * 3 


out[1]: 6 


In [ ]: | 





你 可 以 看 到 正确 显示 的 答案 “6”。 我 们 刚刚 使 用 Python 对 计算 机 友 布 了 
第 一 条 指令 ， 并 成 功 获得 了 正确 的 结果 。 这 是 我 们 的 第 一 个 计算 机 程序 ! 
Ipython 将 你 的 问题 标记 为 “In [1]”， 答 案 标记 为 “Out [1]”， 不 要 被 这 个 分 散 


注意 力 。 
这 只 是 Python 提 示 你 的 提问 输入 〉 和 它 的 回答 (输出 〉 的 方式 。 


这 些 数字 是 你 提问 的 顺序 和 它 回 众 的 顺序 ， 如 果 你 要 在 Notebook 中 上 
Rad. VaR ARTES, EEA A BIT RIBERA o 


2.3.2 ”人 向 单 的 Python 


我 们 说 Python 是 一 种 简单 的 计算 机 语言 fate Pee. REF 
来 ， 在 标记 为 “In []”、 准备 束 绪 的 单元 格 中 输入 下 面 的 代码 ， 并 点 击 运 
行 。 我 们 经 党 使 用 “代码 ”这 个 单词 来 表示 使 用 计算 机 语言 编写 指令 。 如 时 
你 觉得 移动 指针 点 击 运行 按钮 太 过 打 烦 ， 那 么 请 像 我 这 样 做 ， 使 用 键盘 快 
捷 键 Ctrl-Enter 来 代替 。 


print( "Hello World!") 


UR MAA BI) 7S BI, AA TB DY a eT FELT ED HH Re i “Hello 
World! ”， 如 下 所 示 。 


你 可 以 有 发现， 发 出 第 2 条 指令 打印 的 “Hello World! ”， 并 没有 移 除 先前 


指令 的 单元 格 和 输出 的 答案 。 当 你 从 容 不 迫 地 构建 包含 有 几 个 部 分 的 解决 
方案 时 ， 这 和 古 大 有 神兽 的 。 
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Out[1]: 6 


In [2]: print("Hello World!") 


Hello World! 
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格 ， 那 么 请 单 击 看 起 来 是 个 加 号 、 工 具 提 示 为 “Insert Cell Below” 的 按钮 。 


x= 10 
print(x) 
print(x+5) 


y = X+7 
print(y) 


print(z) 





第 一 行 的 “x = 10? 看 起 来 像 数 学 声明 ， 告 诉 我 们 x 等 于 10。 在 Python 
中 ， 这 意味 着 x 被 设置 为 10， 也 就 是 说 ，10 被 放 在 了 称 为 x 的 虚拟 盒子 中 。 
这 非常 简单 ， 如 下 图 所 示 。 
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令 ， 因 此 我 们 对 “print(x)” 也 不 必 太 过 惊讶 。 这 可 以 打印 出 x AE, EW 
是 “10”。 为 什么 这 个 指令 不 打印 出 字母 “x" 呢 ? ee Ll Python bh ze JS FY Be 
地 计算 它 所 能 计算 的 一 切 事情 ，x 可 以 被 评估 为 10， 因 此 Python 束 打印 出 
S10. R47 “print (x+5)” 束 是 计算 x+ 5 的 结果 ， 也 就 是 10 + 5 或 15， 
此 ， 我 们 预期 程序 会 打印 出 “15”。 


如 果 按 照 Python 会 计算 它 所 能 计算 的 一 切 这 个 和 想法， 那么 下 一 项 “y =x 
+7”， 你 也 不 难 计 算得 到 。 老 师 告 诉 我 们 ， 这 是 将 值 赋 给 标记 为 y 的 新 盒 
T, (AIK MBE SDE? 表达 式 为 x+ 7， 也 就 是 10 + 7 或 17， 因 此 y 保存 
了 值 17， 下 一 行 束 应 该 打印 出 这 个 值 。 


如 果 我 们 还 未 像 赋 值 给 x 和 vy 那样 赋值 给 z， 那 么 执行 “print(z)” 这 行 指 
S, BREA AME? 我 们 会 礼貌 地 得 到 一 个 错误 信息 ， 告 知 这 种 方式 有 错 
误 ， 尽 可 能 地 帮助 我 们 解决 这 个 问题 。 我 必须 说 ， 大 多 数 计算 机 语言 有 一 
些 错误 消息 ， 这 些 错误 消 息 尽力 帮 我 们 解决 问题， 但 不 一 定 能 够 成 功 。 


下 图 显示 了 上 述 代 码 的 结 末 ， 包 括 礼 狐 地 用 于 帮助 用 户 的 错误 消息 ， 


EW “name z is not defined”. 
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In [1]: 2 * 3 


Out[l]: 6 


In [2]: print("Hello World!") 


Hello World! 


In [4]: x = 10 


or r 
<ipython-input-4-5797bafab021> in <module>() 
6 print(y) 
7 


NameError: name 'z' is not defined 


这 些 你 和 存 了 10 和 17 的 值 、 标 签 为 x 和 y 的 盒 于 ， 我 们 称 之 为 变量 。 


在 计算 机 语言 中 ， 我 们 通 冲 使 用 变量 组 成 一 套 通 用 的 指令 ， 融 像 数学 
家 使 用 “X” 和 “Y” 这 样 的 表达 式 做 出 一 般 性 的 陈述 。 


2.3.3 ”日 动 化 工作 


计算 机 非常 适合 多 次 重复 执行 类 似 的 任务 ， 它 们 不 介意 多 次 重复 执行 
类 似 的 任务 ， 相 比 于 人 类 使 用 计算 右 ， 它 们 的 速度 非常 快 ! 让 我 们 来 看 
看 ， 假 设 让 计算 机 打印 出 前 10 个 整数 的 平方 ， 从 0 的 平方 开始 ， 然 后 是 1 的 
平方 、2 的 平方 等 。 我 们 预期 可 以 观察 到 和 输出， 如 0、1、4、9、16、25 等 。 


我 们 也 可 以 目 己 进行 计算 ， 然 后 使 用 一 组 指令 ， 如 “print (0)”“print 
(1)’“print (4)2 等 。 虽 然 这 也 可 以 成 功 ， 但 是 并 未 让 计算 机 为 我 们 执行 计算 
任务 。 更 重要 的 征 ， 我 们 错过 了 ， 拥 有 一 组 通用 指令 集 ， 打 印 出 任何 特定 
数字 的 平方 的 机 会 。 要 做 到 这 一 点 ， 我 们 需要 学 会 几 个 新 思路 ， 这 样 束 可 
以 很 轻松 地 达到 目标 了 。 


在 下 一 个 准备 融 绪 的 单元 格 中 输入 以 下 代码 ， 然 后 运行 代码 。 


list( range(10) ) 


你 会 得 到 10 个 数字 的 列表 ， 从 0 到 9。 我 们 让 计算 机 执行 任务 ， 创 建 列 
人 
| 


In [8]: list( range(10) ) 


Out[8]: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] 


你 也 许 会 感到 惊讶 ， 列 表 是 从 0 到 9， 而 不 是 从 1 到 10。 这 是 由 于 许多 计 
算 机 相关 的 事情 是 从 0 开始 ， 而 不 是 从 1 开始 的 。 我 也 曾经 认为 计算 机 列表 
是 从 1 开始 而 不 是 从 0 开始 的 ， 这 种 想法 多 次 绊 倒 了 我 。 在 执行 计算 或 多 次 
应 用 适 代 函数 时 ， 创 建 有 序列 表 来 计数 是 非 钊 有 帮助 的 。 


你 可 能 已 经 注意 到 ， 我 们 遗漏 了 关键 字 “print”， 当 我 们 打印 短语 “Hello 
World! ”时 ， 使 用 了 这 个 关键 字 ， 但 是 ， 在 计算 2* 3 时 ， 没 有 使 用 这 个 关 
键 字 。 由 于 Python 知道 我 们 希望 看 到 所 发 出 指令 的 结果 ， 因 此 当 我 们 以 交 
互 的 方式 与 Python 一 起 工作 时 ， 关 键 字 “print” 是 可 选 的 。 

让 计算 机 重复 做 事情 的 一 种 很 常见 的 方式 是 使 用 称 为 循环 的 代码 结 
构 。 御 环 确 实 给 读者 市 来 了 一 种 印象 ， 束 是 一 件 事 情 潜 在 无 止境 地 来 回 运 
行 。 我 们 不 会 去 定义 循环 ， 而 只 是 简单 地 演示 循环 。 在 一 个 新 的 单元 格 中 
输入 并 运行 下 列 代码 。 


| for n in range(10): | 


print(n) 
pass 
print( "done" ) 


这 里 有 三 样 新 事物 ， 让 我 们 来 理解 一 下 。 和 第 一 行 是 range(10)”， 它 创 
建 了 0 到 9 的 数字 列表 ， 正 如 我 们 先前 所 见 到 的 那样 。 


“for n in” 创 建 了 一 个 循环 ， 在 这 个 例子 中 ， 它 对 在 列表 中 的 每 个 数字 
都 做 了 一 些 事 情 ， 将 当前 的 值 赋予 变量 n 来 保持 计数 。 我 们 先前 介绍 过 变 
量 ， 这 就 像 是 在 第 一 个 循环 期 间 将 0 赋值 给 n， 然 后 是 n=1、n=2， 直 到 列表 
的 最 后 一 项 n=9。 


下 一 行 “print(nD)” 克 是 徐 单 地 打印 n 的 但。 我 们 预期 要 打印 列表 中 的 所 有 
数字 。 但 是 ， 在 “printmn)” 之 前 ， 应 注意 缩 进 。 在 Python 中 ， 缩 进 的 使 用 是 
有 意识 地 显示 哪些 指令 在 其 他 指令 的 管辖 之 下 ， 因 此 缩 进 很 重要 ， 在 这 个 
例子 中 ， 这 就 是 由 “forn in...” 所 创建 的 循环 。“pass” 指 令 标 志 循 环 的 结束 ， 
下 一 行 就 回 到 正常 的 缩 进 ， 不 再 是 循环 的 一 部 分 了。 这 意味 看 “done” 只 能 
打印 一 次 ， 而 不 是 10 次 。 下 图 显示 出 了 输出 ， 这 正如 我 们 所 预期 的 那样 。 


Out(8]: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] 


In [12]: for n in range(10): 
int(n) 
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现在 ， 我 们 应 该 很 清楚 ， 通 过 打印 “ns*n”， 可 以 打印 出 数字 的 平方 。 事 
实 上 ， 我 们 可 以 打印 出 如 “The square of 3 is 9” 这 样 的 短语 ， 使 得 输出 更 有 
帮助 。 下 面 的 代码 显示 了 我 们 对 循环 内 部 重复 执行 的 打印 指令 做 了 一 点 调 
整 。 请 注意 ， 不 在 引号 内 的 变量 都 是 要 进行 计算 的 变量 。 
for n in range(10): 


print( "The square of", 
pass 


print( "done" ) 
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In [13]: for n in range(10): 
print("The square of", n, "is", n*i) 
pass 
print ("done") 


The square of 
The square of 
The square of 
The square of 
The square of 
The square of 
The square of 
The square of 
The square of 
The square of 
done 
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这 已 经 相当 强大 ! 我 们 挖掘 出 了 计算 机 的 潜力 ， 只 使 用 一 组 很 短 的 指 
令 就 快速 地 执行 大 量 的 工作 。 我 们 可 以 很 容易 使 用 range(50)， 甚 至 如 果 我 
Je 
试 一 下 ! 


2.3.4 注释 


在 我 们 介绍 更 多 更 强大 的 Python 命 令 之 前 ， 先 来 看 看 以 下 简单 的 代 


—_—_ 


# the following prints out the cube of 2 
print(2**3) 


第 一 行 的 开头 是 哈 希 符号 并 。Python 将 忽略 使 用 哈 希 符号 # 开 头 的 行 。 


这 些 语 句 并 不 是 一 无 是 处 ， 我 们 可 以 使 用 这 些 行 ， 与 上 有 意义 的 代码 
注释 ， 使 得 其 他 读者 对 代码 更 消 晰 ， 甚 至 在 以 后 我 们 返回 来 看 代码 的 时 
VR, ROBT IR A A BH 


对 代码 进行 注释 ， 特 别 对 那些 相对 复杂 或 不 太 明显 的 代码 进行 注释 ， 
相信 我 ， 将 来 你 会 对 此 感激 不 尽 的 。 我 曾经 多 次 试图 解码 自己 的 代码 ， 经 
常 自问 “当时 ， 我 是 怎么 想 得 .…...” 


2.3.5 AŽ 


之 前 ， 在 本 书 的 第 1 章 中 ， 我 们 从 了 很 多 时 间 探 讨 数 学 函数 。 我 们 将 函 
数 视 为 机 禹 ， 接 受 输入 ， 做 一 些 工 作 ， 然 后 弹出 输出 。 这 些 函 数 能 够 经 受 
住 孝 驼 ， 可 以 及 复 使 用 。 


主 多 计算 机 语言 ， 包 括 Python 在 内 ， 虱 尽量 使 得 创建 可 重用 的 计算 机 
指令 变 得 容易 。 束 像 数 学 函数 ， 如 果 你 能 够 足够 明确 地 定义 这 些 函 数 ， 这 
些 可 重用 的 代码 请 段 束 能 独立 存在 ， 并 且 人 允许 你 号 出 更 短 、 更 优雅 的 代 
全。 为 什么 较 短 的 代码 更 好 呢 ? 这 和 古 因 为 通过 函数 名 称 多 次 调用 函数 ， 比 
BAR HH PA BLAS BTA ENS RUF AS - 


我 们 说 “足够 明确 的 定义 ?是 什么 意思 呢 ? 在 这 里 ， 这 个 词 的 意思 龙 对 
国 数 预期 输入 很 清楚 ， 对 函数 生成 的 得 出 也 很 清 条 。 一 坚 函 数 只 接受 数字 
作为 输入 ， 你 不 能 提供 由 字母 组 成 的 早 词 给 这 些 函 数 。 


同样 ， 当 希望 了 解 函 数 的 简单 思想 时 ， 最 好 的 办 法 是 观察 一 个 简单 的 
图 数 ， 并 使 用 函数 做 一 些 有 趣 的 事情 。 输 入 以 下 代 但 并 运行 。 


# function that takes 2 numbers as input 
# and outputs their average 
def avg(x,y): 

print( "first input is", x) 


print( "second input is", y) 
a= (x+y) / 2.0 
print("average is", a) 
return a 
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行 ， 这 是 我 们 写 的 注释 。 下 一 行 “def avg( xy)2” 告 诉 Python， 我 们 要 定义 一 
个 新 的 可 重用 函数 。 这 就是 关键 字 “def” 的 意思 。“avg” 这 一 项 是 我 们 给 函数 
的 名 字 。 虽 然 我 们 可 以 称 函 数 为 "banana (EA) ”或 pluto (RE) ”, 
但 是 使 用 有 意义 的 名 字 ， 可 以 提醒 我 们 函数 实际 上 所 做 的 事情 ， 这 更 为 合 
理 。 在 括号 中 的 Cx, y) 这 一 项 ， 告 诉 Python 这 个 函数 有 两 个 输入 参数 ， 
这 两 个 输入 在 后 面 的 冰 数 定义 内 部 称 为 x 和 y。 


一 些 计算 机 语言 可 能 要 让 你 明确 这 是 什么 类 型 的 对 象 ， 但 是 Python 个 
会 要 求 你 这 样 做 ，Python 只 会 在 你 试图 滥用 变量 时 ， 例 如 将 字符 当 作 数学 
使 用 或 做 其 他 状 狂 的 事情 时 ， 有 礼貌 地 癌 你 抱 候 。 


现在 ， 我 们 已 经 通知 了 Python， 要 定义 一 个 函数 。 我 们 需要 确实 告诉 
它 ， 这 个 函数 是 做 什么 事情 的 。 郴 数 的 定义 需要 缩 进 ， 如 上 面 的 代 但 所 
示 。 一 些 语言 使 用 大 量 的 括号 ， 明 确 表示 哪些 指令 是 属于 哪 一 个 程序 的 一 
部 分 ， 然 而 ，Python 的 设计 者 认为 ， 众 多 括号 会 让 人 眼花 绿 乱 ， 难 以 一 一 
对 应 ， 缩 进 使 得 了 解 程序 的 结构 瞬间 变 得 清晰 可 见 ， 并 变 得 比较 轻松 。 由 
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主意 ! 在 有 时 令 人 讨厌 的 计算 机 编程 世界 中 ， 这 是 从 中 走出 的 一 个 最 佳 的 
人 性 化 理念 ! 由 于 avg (x, y) 函数 使 用 了 我 们 已 经 明日 的 内 容 ， 因 此 它 的 
~ aaa 当 调 用 这 个 函数 时 ， 它 会 打印 出 函数 获得 的 第 一 个 和 
PAF o 


虽然 打印 出 这 些 数字 对 求 平 均值 不 是 必需 的 ， 但 是 我 们 这 样 做 ， 有 是 为 
本 让 读者 真正 消 楚 函数 内 部 友 生 的 事情 。 下 一 项 计算 (x+y) /2.0， 并 将 
值 赋 给 名 为 a 的 变量 。 同 样 ， 我 们 再 次 打印 出 平均 值 ， 帮 助 读 者 明日 代码 做 
了 什么 事情 。 最 后 一 条 语句 是 “return a”， 这 是 函数 的 结尾 ， 告 诉 Python 函 
Bl 四 得 出 是 什么 ， 吏 像 我 们 之 前 讨论 的 机 闪 


当 我 们 运行 这 段 代 代 时 ， 它 似乎 并 没有 执行 任何 事情 。 没 有 生成 任何 
数字 。 这 是 因为 我 们 只 定义 了 函数 ， 却 没有 使 用 函数 。 实 际 发 生 的 情况 
是 ，Python 已 经 记录 了 这 个 函数 ， 并 让 这 个 函数 准备 就 绕 ， 以 供 我 们 想 要 
调用 这 个 函数 时 使 用 。 


在 接 下 来 的 单元 格 中 输入 “avg (2,4) ”来 调用 这 个 函数 ， 输 入 值 为 2 和 
4。 顺 便 说 一 句 ， 在 计算 机 编程 世界 中 ， 我 们 称 之 为 调用 函数 〈calling a 
function) 。 我 们 会 得 到 所 期 望 的 输出 ， 函 数 会 打印 出 相关 的 两 个 输入 值 和 
计算 的 平均 值 。 由 于 在 交互 式 的 Python 会 话 中 调用 了 这 个 函数 ， 因 此 会 看 
到 这 个 函数 的 结果 。 下 面 显 示 了 函数 定义 以 及 以 avg (2,4) 和 较 大 的 值 
avg (200,301) 调用 函数 所 得 到 的 结果 。 


你 可 以 使 用 目 己 的 输入 值 ， 运 行 代码 ， 进 行 实验 。 


In [20]: # function that takes 2 numbers as input 
# and outputs their average 
def avg(x,y): 
print("first input is", x) 
print("second input is", y) 
a= (x + y) / 2.0 
print("average is", a) 
return a 
In [21]: avg(2,4) 


first input is 2 
second input is 4 
average is 3.0 


Out[21]: 3.0 


In [23]: avg(200,301) 


first input is 200 
second input is 301 
average is 250.5 


Out[23]: 250.5 


你 可 能 已 经 注意 到 ， 计 算 平 均值 的 函数 的 代码 用 两 个 输入 值 的 和 除 以 
2.0， 而 不 是 2。 这 是 为 什么 昵 ? 嗯 ， 这 是 我 不 喜欢 的 Python 的 一 个 特点 。 
如 果 使 用 2， 由 于 Python 认 为 2 为 整数 ， 因 此 它 会 将 结果 问 下 调整 到 最 接近 
的 整数 。 对 于 avg(2,4)， 由 于 6/2 等 于 3， 是 一 个 整数 ， 这 还 不 错 。 但 是 对 于 
avg(200,301)， 平 均值 为 501/2， 等 于 250.5， 这 会 向 下 调整 为 250。 我 认为 这 
一 切 都 非常 电大 ， 但 是 如 果 你 的 代码 不 能 够 完全 正确 地 执行 ， 这 值得 你 思 
考 一 和 一 。 除 以 2.0 告 诉 Python， 我 们 坚持 使 用 具有 小 数 部 分 的 数字 ， 而 不 布 
望 结果 向 下 调整 为 整数 。 


让 我 们 祝贺 自己 定义 了 一 个 可 重复 使 用 的 函数 ， 无 论 是 在 数学 领域 还 
是 在 计算 机 编程 领域 ， 这 都 是 最 重要 、 最 强大 的 元 素 之 一 。 


当 我 们 编码 神经 网 络 时 ， 会 使 用 可 重用 函数 。 例 如 ， 编 写 一 个 可 重用 
和 


2.3.6 ”数组 


数组 只 是 数值 表格 ， 它 们 非常 便于 使 用 。 束 像 表 格 一 样 ， 你 可 以 根据 
行 数 和 列 数 来 指示 特定 的 单元 。 如 果 你 想起 电子 表格 ， 那 么 你 应 该 知道 ， 
我 们 使 用 B1 或 C5 这 种 方式 来 指示 单元 ， 这 些 单元 中 的 值 可 以 用 于 计算 中 ， 


如 C3 + D7。 


当 我 们 要 编 码 神经 网 络 时 ， 将 使 用 数组 来 表示 输入 信号 、 权 重 和 输出 
言 号 的 乍 阵 。 并 且 不 只是 这 些 ， 当 神经 网 络 内 部 的 信和 号 前 馈 或 误差 在 神经 
网 络 中 反 同 传播 时 ， 我 们 还 将 使 用 数组 来 表示 这 些 信 号 和 误 关 。 因 此 ， 让 
我 们 一 起 来 熟悉 数组 。 输 入 以 下 代码 并 运行 它们 。 


= Untitled spreadsheet ps 
File Edit View Insert Format Data Tools Add-ons Help Allchan 


Sow PF £ % 0 .00 123 - Arial 10 -| B . 
A B C D = 
1 this is cell A1 this is cell B1 
2 this is cell A 
3 this is cell B3 1.342 
4 
5 this is cell C5 
6 
7 2.323 
8 
9 


IKK iTS HAE TT Ze? import 命 令 告 诉 Python， 从 其 他 地 方 售 助 额外 的 
力量 ， 在 它 的 区 域 中 这 加 新 的 工具 。 有 时 候 ， 这 些 额 外 的 工具 是 Python 中 
的 一 部 分 ， 但 是 这 些 工 具 还 未 准备 就 绪 供 大 家 使 用 。 为 了 保持 Python 的 精 
和 侧 ， 只 有 你 要 使 用 一 些 额 外 的 工具 时 ，Python 才 携 市 这 些 额 外 的 工具 。 通 
利 ， 这 些 人 额外 的 工具 不 是 Python 的 核心 部 分 ， 而 是 由 其 他 人 创建 的 ， 作 为 
有 用 的 附加 功能 页 献 给 大 家 人 使用。 这里， 我 们 引进 了 额外 的 一 组 工具 ， 这 
组 工具 被 打包 为 numpy 模 块 。numpy 非 常 受 欢迎 ， 这 个 模块 包含 了 一 些 有 
用 的 工具 《如 数组 ) 以 及 使 用 这 些 工具 进行 计算 的 能 


在 接 下 来 的 单元 格 中 ， 输 入 以 下 代码 。 


a = numpy.zeros( [3,2] ) 
print(a) 


这 上段 代码 使 用 寻 入 的 numpy 和 使 英 ， 创 建 了 3 乘 以 2 的 数组 ， 并 且 将 所 有 


单元 的 值 都 设置 为 0， 我 们 将 整个 数组 赋 给 了 名 为 a 的 变量 。 然 后 ， 我 们 打 
负 a。 我 们 可 以 观察 这 个 数组 ， 这 个 数组 台 像 旦 一 个 3 行 2 列 的 表格 ， 其 中 所 
有 单元 都 为 0。 

In [2]: import numpy 

In [3]: a = numpy.zeros( [3,2] ) 


print(a) 
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现在 ， 让 我 们 修改 数组 的 内 容 ， 将 其 中 一 些 0 更 改 为 其 他 值 。 下 面 的 代 
但 演示 了 如 何 指定 特定 单元 ， 使 用 新 值 来 禾 关 有 旧 值 。 这 残 像 是 指定 电子 衣 
格 的 单元 格 或 街道 地 图 的 网 格 一 样 。 
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第 一 行 代 但 将 堆 行 和 零 列 的 单元 的 值 更 新 为 1， 无 论 此 前 议 单 元 和 是 什么 
值 ， 部 被 覆 订 了 。 其 他 行 代码 也 进行 了 类 似 的 更 新 ， 并 且 最 后 一 
行 “print(a)”， 打印 出 了 最 终结 果 。 下 图 显示 了 改变 后 数组 的 样子 。 


In [2]: import numpy 


In [3]: a = numpy.zeros( [3,2] ) 
print(a) 
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In [4]: a[0,0] =1 
aloi] = 2 
a[1,0] = 9 
a[2,1] = 12 
print(a) 


现在 ， 既 然 我 们 理解 了 如 何 设 置 数 组 单元 格 的 值 ， 那 如 何 无 需 打 印 出 


整个 数组 惑 可 以 得 找 数组 单元 格 的 值 呢 ? 我 们 已 经 在 这 样 做 了 。 可 以 简单 
地 使 用 表达 式 ， 如 [1,2] 或 [2,1]， 来 指定 这 些 早 元 格 ， 我 们 可 以 打印 出 这 些 
蛙 元 格 的 内 容 ， 或 将 其 同 给 其 他 变量 。 下 列 代码 显示 的 束 古 这 种 操作 。 


print(a[0,1]) 
v = a[1,0] 
print(v) 


Minh Py DAES BI, DA ART EN TR E S 20E, AEE 
[0,1] 中 的 值 。 下 一 个 在 单元 格 [1,0] 内 的 值 被 赋 给 了 变量 Vv， 程 序 打印 出 了 这 
个 变量 ， 我 们 得 到 了 预期 的 9.0。 


In [5]: print(a[0,1]) 
v = a[1,0] 
print(v) 


2.0 
9.0 


列 和 行 的 编号 从 0 开始 而 不 是 从 1 开始 的 。 左 上 的 单元 格 是 [0,0] 不 是 
[1,1]。 这 也 意味 看 右 下 单元 格 是 [2,1] 而 不 是 [3,2]。 我 总 是 筷 记 ， 在 计算 机 
世界 上 ， 许 多 事情 从 0 开始 而 不 是 从 1 开始 ， 因 此 这 有 时 会 让 我 抓 狂 。 如 果 
我 们 试图 引用 [3,2]， 会 得 到 一 个 报错 消息 ， 告 诉 我 们 试图 找 的 单元 格 并 不 
存在 。 如 果 我 们 混 消 了 行 和 列 ， 会 得 到 相同 的 报错 消息 。 让 我 们 答 试 访问 
不 存在 的 [0,2]， 看 看 到 底 会 报告 什么 错误 消息 。 


In [6]: # trying to look up an array element that doesn't exist 
a[0,2] 
IndexError Traceback (most recent call last) 
<ipython-input-6-489d1c44975f> in <module>() 
1 # trying to look up an array element that doesn't exist 


IndexError: index 2 is out of bounds for axis 1 with size 2 


FE HU tits r BOR 2 eR AY, BET Ae, WE 
用 数组 或 窍 隆 ， 我 们 可 以 简化 指令 ， 因 此 数组 或 窍 阵 非 第 有 用 。 在 本 书 第 1 
章 中 ， 我 们 就 已 经 看 到 了 这 一 点 。 


2.3.7 ”绘制 数组 


束 像 大 型 的 数字 表格 或 数字 列表 一 样 ， 即 使 你 非 营 仔细 地 观察 大 型 的 
数组 ， 也 得 不 到 任何 深入 的 理解 。 可 视 化 数组 有 助 于 我 们 快速 获取 数组 有 的 
一 般 意 义 。 绘 制 二 维 数 字数 组 的 一 种 方式 是 将 它们 视 为 二 维 平 面 ， 根 据 数 
组 中 单元 格 的 值 对 单元 格 进行 看 色 。 你 可 以 选 撞 如 何 将 单元 格 中 的 茶 个 数 
值 转换 为 茶 种 色彩 。 


你 可 以 简单 地 选择 根据 颜色 标 度 ， 将 数值 转换 为 种 颜色 ， 或 者 将 超过 
某 一 阔 值 的 单元 格 涂 上 黑色 ， 剩 余 其 他 的 一 切 单元 格 都 涂 为 白色 。 


试看 绘制 完 前 创建 的 小 小 的 3x2 数 组 。 


在 绘制 数组 之 前 ， 我 们 需要 扩展 Python 的 能 力 ， 使 其 可 以 绘制 图 形 。 
我 们 通过 导入 其 他 人 编写 的 额外 的 Python 代 码 来 做 到 这 一 点 。 你 可 以 将 这 
种 行为 类 比 为 从 朋友 处 倡 来 食 讶 ， 放 在 目 己 的 书 染 上 ， 这 样 你 的 书架 有 了 
额外 的 内 容 ， 和 以 前 相 比 ， 你 能 够 准备 更 多 种 采 丰 本。 


下 面 的 代码 展示 了 我 们 如 何 导 入 图 形 绘 制 功能 。 


import matplotlib.pyplot 


“matplotlib.pyplot” 是 我 们 借用 的 狐 “ 食 谱 ” 的 名 字 。 你 可 能 会 过 到 类 
似 “import a module” 或 import a library” 这 样 的 短语 。 这 里 只 需 与 出 要 导入 
的 额外 Python 代码 的 名 字 。 如 果 你 深入 使 用 Python， 可 能 要 经 锅 寻 入 额外 
的 功能 ， 通 过 复 用 他 人 开 友 的 有 用 代码 ， 使 生活 工作 变 得 容易 一 些 。 你 其 
至 可 以 目 己 创建 有 用 的 代码 ， 与 他 人 分 至 ! 


还 有 一 件 事 要 注音， 在 IPython 中 ， 要 坚持 在 Notebook 上 绘制 图 形 ， 不 


OR a 我 们 友 出 了 这 个 明确 的 指令 ， 如 下 
ZN: 


%matplotlib inline 


现在 ， 我 们 可 以 绘制 数组 了 。 输 入 以 下 代码 并 运行 。 


matplotlib.pyplot.imshow(a, interpolation="nearest" ) 





创建 绘图 的 指令 是 imshow()， 第 一 个 参数 是 我 们 要 绘制 的 数组 。 


最 后 一 项 “interpolation” 是 告诉 Python， 不 要 为 了 让 绘图 看 起 来 更 加 平 
清 而 混合 颜色 ， 这 征 Python 为 了 名 助 我 们 而 进行 的 缺 省 设置 。 让 我 们 来 看 
看 输出 。 
In [8]: import matplotlib.pyplot 
tmatplotlib inline 


In [9]: matplotlib.pyplot.imshow(a, interpolation="nearest" ) 


Out[9]: <matplotlib.image.AxesImage at 0x108917710> 
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真是 太 精 彩 了 ! 我 们 的 第 一 幅 图 使 用 颜色 显示 了 3x2 的 数组 。 你 可 以 
看 到 ， 有 其 有 相同 信 的 数组 单元 斋 色 也 相同 。 稍 后 ， 我 们 将 使 用 相同 的 
imshowO0 指 令 来 可 视 化 我 们 馈送 到 神经 网 络 中 的 整个 数组 的 值 。 


IPython 包 有 着 各 种 各 样 、 丰 是 的 可 视 化 数据 的 工具 集 。 你 应 该 仔细 探 
索 这 些 工 具 ， 感 受 各 种 可 能 的 绘图 方式 ， 其 至 可 以 使 用 这 些 工 具 试 着 目 己 
oe ee ere 例如 ， 使 用 不 
[EJ A Vel AK o 


2.3.8 对象 


我 们 再 来 学 习 一 个 Python 的 思想 ， 即 对 象 。 由 于 我 们 只 定义 对 象 一 
次 ， 却 可 以 多 次 使 用 对 象 ， 因 此 对 象 类 似 于 可 重用 函数 。 但 是 ， 比 起 人 简单 
的 函数 ， 对 象 可 以 做 的 事情 要 多 得 多 。 

要 了 解 对 象 ， 最 简单 的 方法 驶 是 观察 它们 的 应 用 ， 而 不 是 学 习 一 大 堆 
抽象 的 概念 。 让 我 们 看 看 下 列 代码 。 


# class for a dog object 
class 


Dog: 


# dogs can bark() 
def 


bark(self): 
print ("woof !") 
pass 


pass 





让 我 们 从 玖 悉 的 内 容 开 始 。 你 可 以 看 到 ， 在 代码 内 有 一 个 图 数 名 为 
barkO。 如 果 我 们 调用 这 个 函数 ， 束 很 容易 看 到 这 个 动作 ， 即 在 屏幕 上 打印 
出 了 “woof! ”。 这 很 容易 吧 ! 


现在 ， 让 我 们 来 看 看 这 个 熟悉 的 函数 定义 。 你 可 以 看 到 关键 字 class、 
名 字 “Dog’ 和 一 个 看 外 来 像 函 数 的 EKo 这 与 函数 的 定义 相似 ， 也 有 一 个 
名 字 。 ain 前 数 使 用 关键 字 “def” 来 定义 ， 而 这 里 使 用 “class”* 来 
定义 对 象 。 


在 深入 讨论 class〈 类 ) 与 对 象 有 何 区 别 之 前 ， 让 我 们 再 一 次 看 看 一 些 
真实 而 简单 的 代码 ， 将 这 些 抽象 的 思想 带 到 生活 中 。 


sizzles = Dog() 
sizzles.bark() 


可 以 看 到 第 一 行 代码 创建 了 一 个 名 为 sizzles 的 变量 ， 这 个 变量 看 起 来 
来 自 一 个 似是而非 的 函数 调用 。 事 实 上 ，Dog0O 是 一 个 特殊 的 函数 ， 这 个 函 
数 创建 了 所 定义 的 Dog 类 的 一 个 实例 。 现 在 来 看 看 如 何 从 类 的 定义 中 创建 
出 实例 。 我 们 称 这 些 实例 为 对 象 。 我 们 从 Dog 类 的 定义 中 创建 了 名 为 sizzles 
的 对 象 ， 可 以 认为 这 个 对 象 为 一 条 狗 Cdog) 。 


下 一 行 代码 在 sizzles 对 象 上 调用 了 bark0 函 数 。 由 于 我 们 明白 什么 是 孙 
数 ， 因此 对 此 并 不 阳 生 。 有 点 不 太 熟 悉 的 是 所 调用 的 函数 bark()， 它 好 像 是 
sizzles 对 象 的 一 部 分 。 这 是 因为 所 有 创建 日 Dog 类 的 对 象 都 有 bark0) 孙 数 。 
可 以 在 Dog 类 的 定义 中 看 到 这 个 函 数 。 


让 我 们 使 用 简单 的 术语 来 摘 述 发 生 了 什么 。 我 们 创建 了 一 种 叫做 
sizzles 的 狗 (Dog) > sizzles 是 一 个 对 象 ， 按 照 狗 (Dog) 类 的 形象 创建 。 
对 象 是 类 的 实例 。 


下 图 显示 了 我 们 迄今 所 做 的 事情 ， 也 证 实 了 sizzles.bark0O 确 实 输 
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In [7]: # class for a dog object 
class Dog: 


# dogs can bark() 

def bark(self): 
print("woof!") 
pass 


pass 
In [8]: sizzles = Dog() 


In [9]: sizzles.bark() 


woof! 


IRPJ BECARI T KAŽE X bark (self) 中 的 “seljf>。 这 似乎 很 奇怪 ， 
我 对 此 也 感到 很 寄 怪 . 我 非 钊 喜欢 Python， 但 十 我 并 不 认为 Python 是 完美 
的 “sel 台 之 所 以 出 现在 那里 ， 是 为 了 当 Python 创 建国 数 时 ，Python 能 将 函 
数 赋予 正确 的 对 象 。 但 是 我 个 人 的 看 法 是 : 由 于 bark0O 是 在 类 定义 的 内 部 ， 
因此 Python 应 该 知道 这 个 图 数 连接 到 了 哪个 对 象 ， 这 是 显而易见 的 。 


让 我 们 来 看 看 所 使 用 的 对 象 和 和 类。 仔细 观察 下 面 代码 。 


Sizzles = Dog() 
mutley = Dog() 


Sizzles.bark() 
mutley.bark() 





运行 这 段 代码 ， 看 看 会 及 生 什么 。 


In [4]: sizzles = Dog() 
mutley = Dog() 


sizzles.bark() 
mutley.bark( ) 


woof! 
woof! 


In [ Ti 


真有 趣 ! 我 们 创建 了 名 为 sizzles 和 mnutley 的 两 个 对 象 。 要 意识 到 ， 重 要 
的 一 点 是 这 两 个 对 象 都 创建 目 DogO 关 的 定义 。 这 真是 大 强大 了 ! 我 们 定义 
了 Dog 的 形象 以 及 它们 的 行为 ， 然 后 我 们 创建 了 真正 的 实例 。 


这 就 古 类 和 对 象 之 间 的 区 列 ， 类 只 是 定义 ， 对 象 是 所 定义 类 的 真正 实 
例 。 关 是 菜谱 书 中 的 捍 糙 配方 ， 对 象 是 按照 配方 做 出 的 一 个 香料 。 下 图 生 
动 地 显示 了 从 类 的 配方 中 ， 如 何 制作 出 对 象 。 
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这 些 从 类 中 创建 的 对 象 有 什么 作用 呢 ? 为 什么 要 这 么 欣 烦 呢 ? 不 需要 
所 有 额外 的 代码 ， 下 接 打 印 出 单词 “woof! ”， 已 不 是 更 催 单 ! 


咽 ， 当 你 看 到 所 有 这 些 类 型 的 对 象 部 创建 目 相 同 的 模板 时 ， 整 会友 现 
这 古 多 么 的 有 用 处 了 。 这 种 方法 完全 省 去 了 单独 创建 每 个 对 象 的 工作 。 但 
是 ， 真 正 的 好 处 源 目 于 对 象 已 经 有 了 整齐 封 疼 在 内 的 数据 和 函数 。 这 种 好 
处 是 对 于 人 类 的 程序 员 而 言 的 。 如 来 代码 证 段 能 有 组 织 地 围绕 看 对 象 这 个 
中 心 ， 并 且 这 些 代 码 是 自然 属于 这 个 对 象 的， 那么 这 有 利于 我 们 更 容易 地 
理解 相对 复杂 的 问题 。 铬 蚊 。 单 击 按钮 。 扬 声 和 全 及 出 的 声音 。 打 印 机 打 
印 ， 或 声明 和 里 纸 。 在 许多 计算 机 系统 中 ， 我 们 将 按钮 、 扬 声 规 和 打印 机 表 
不 为 对 象 ， 并 通过 这 些 对 象 调用 函数 。 


AIM TR, UR BINT RK BORER A TTI (method) 。 在 上 述 内 容 中 ， 
我 们 已 经 这 样 做 了 ， 我 们 添加 了 bark0O) 函 数 到 Dog 类 ， 使 用 Dog 类 创建 的 
sizzles 和 mutley 对 象 都 具有 barkO 方 法 。 在 例子 中 ， 你 看 到 它们 都 
bark CHR) 了。 神经 网 络 需 要 接受 菜 些 输入 ， 进 行 一 些 计算 并 产生 输出 。 
我 们 也 知道 可 以 训练 神经 网 络 。 你 可 以 看 到 ， 这 些 动作 、 训 练 和 生成 的 答 
案 ， 是 神经 网 络 的 原生 函数 ， 即 神经 网 络 对 象 的 冰 数 。 你 应 该 记得 ， 神 经 
网 络 内 部 有 数据 ， 也 束 是 链接 权重 ， 这 些 数 据 本 来 束 是 属于 神经 网 络 的 。 


这 就 是 我 们 把 神经 网 络 构 建 为 对 象 的 原因 。 


为 了 完整 起 抑 ， 让 我 们 看 看 如 何 把 数据 变量 深 加 到 关中 ， 并 添加 一 些 
方法 来 观 宗 和 改变 这 些 数据 。 仔 细 观 察 以 下 Dog 关 的 新 的 定义 。 这 里 祥生 
了 几 件 事情 ， 让 我 们 一 次 讨论 一 件 事 情 。 


# class for a dog object 
class 


Dog 


# initialisation method with internal data 
def init _ (self, petname, temp) 


self.name = petname; 
self.temperature = temp; 


# get status 
def status(self) 


print("dog name is ", self.name) 
print( "dog temperature is ", self.temperature) 


pass 

# set temperature 

def setTemperature(self, temp) 
self.temperature = temp; 
pass 

# dogs can bark() 

def bark(self) 
print ("woof !") 
pass 


pass 





首先 要 注意 的 事情 是 ， 我 们 添加 了 3 个 新 函数 到 Dog 类 中 。 我 们 已 经 有 
了 bark0O 函 数 ， 现 在 义 有 了 新 的 函数 ， 名 为 ”init O~ status) Fi 
setTemperature()。 很 容 多 理解 洪 加 狐 函 数 。 如 果 愿 意 ， 也 可 以 洪 加 名 为 


sneeze0) 的 新 函数 与 barkO 匹 配 。 


但 是 ， 在 函数 名 内 部 ， 似 乎 存在 了 新 负数 的 变量 名 。setTemperature 后 
数 实际 上 是 setTemperature (self, temp) > init 消 数 实际 上 是 
init__(self, petname, temp) 。 在 括号 内 ， 这 些 额 外 的 项 是 什么 ? eK By 
被 调用 时 ， 它 们 是 函数 所 期 望 的 变量 ， 称 为 参数 。 记 得 我 们 先前 所 看 到 的 
求 平 均值 函数 avg (x, y) E? avg0 〇 函数 的 定义 明确 需要 2 个 数字 。 因 此 ， 
int 0 需要 一 个 petname 和 一 个 temp，setTemperature() 疯 数 只 需要 一 个 
temp。 


现在 来 看 看 这 些 狐 疯 数 内 部 。 上 站 完 ， 看 看 古怪 的 名 为 _init _ OM 
数 。 为 什么 给 它 取 一 个 这 么 古怪 的 名 字 呢 ?这 个 名 字 很 符 列 ， 当 第 一 次 创 
建 对 象 时 ，Python 会 调用 这 个 名 为 _init _ 0 的 函数 。 这 对 我 们 非常 方便 ， 
在 实际 使 用 这 个 对 象 前 ， 这 个 函数 束 做 了 准备 对 象 这 一 工作 。 在 这 个 神奇 
的 初始 化 函数 中 ， 做 了 什么 呢 ? 我 们 似乎 只 创建 了 2 个 新 变量 ， 分 别名 为 
self namefilself.temperature. RPJ LAM FE i825 ek BCA petname fll temp 4s = P 
看 到 它们 的 值 。“self.” 部 分 意味 看 这 个 变量 是 这 个 对 象 本 里 的 一 部 分 ， 
此 它 有 一 个 “self。 也 残 是 说 ， 这 些 变 量 只 属于 这 个 对 象 ， 而 独立 于 其 他 
Dog 对 象 和 和 Python 中 的 一 般 变 量 。 我 们 不 希望 泥 消 这 只 狗 的 名 字 与 其 他 狗 
的 名 字 ! 如 条 这 上 听 起 来 很 复杂 ， 不 要 担心 ， 当 实际 运行 一 个 真实 的 例子 
时 ， 这 十 很 容易 明日 的 。 


下 一 个 是 status0 函 数 ， 这 个 函数 非常 简单 。 它 不 市 任何 参数 ， 只 是 打 
印 出 Dog 的 对 象 名 和 温 友 变量 。 


最 后 是 setTemperatureO) 函 数 ， 这 个 函数 确实 有 一 个 参数 。 当 调用 这 个 
函数 时 ， 它 将 self.temperature 设 置 为 所 提供 的 temp 参 数 。 这 意味 看 ， 在 创建 
对 象 之 后 ， 在 任何 时 间 内 你 都 可 以 改变 对 象 的 温度 。 只 要 你 喜欢 ， 可 以 多 
次 改变 对 象 的 温度 。 


我 们 避免 谈 及 为 何 所 有 这 些 函 数 〈 包 括 bark() 函 数 ) ， 都 有 一 
个 “self" 作 为 第 一 个 参数 。 这 是 Python 的 特点 ， 我 觉得 这 个 特点 有 点 令 人 厌 
烦 ， 但 是 这 是 Python 污 变 的 方式 。 这 个 参数 的 作用 惑 是 让 Python 明白 ， 你 
要 定义 的 函数 属于 对 象 ， 访 对象 称 为 “self”。 你 也 许 会 认为 ， 我 们 在 类 中 编 
写 疯 数 ， 这 应 该 是 显而易见 的 吧 。 这 甚至 已 经 在 专家 级 的 Python 程 序 员 中 
引起 了 争论 ， 对 此 ， 你 不 会 惊讶 吧 ， 很 多 人 都 与 你 一 样 迷 惑 不 解 。 


让 我 们 册 运 作 起 来 ， 观 察 这 一 切 ， 使 得 这 个 概念 变 得 清晰 。 下 图 显示 
了 使 用 这 些 新 函数 定义 的 新 Dog 关 以 及 名 为 lassie 的 新 的 Dog 对 象 ， 我 们 使 


用 参数 将 其 命名 为 "Lassie"”， 设 置 初 始 温 度 为 37， 创 建 了 这 个 对 象 。 


In [18]: # class for a dog object 
class Dog: 


# initialisation method with internal data 
def init (self, petname, temp): 
self.name = petname; 
self.temperature = temp; 


# get status 

def status(self): 
print("dog name is ", self.name) 
print("dog temperature is ", self.temperature) 
pass 

# set temperature 

def setTemperature(self,temp): 
self.temperature = temp; 
pass 

# dogs can bark() 

def bark(self): 
print("woof!") 


pass 


pass 


In [19]: # create a new dog object from the Dog class 
lassie = Dog("Lassie", 37) 


In [20]: lassie.status() 


dog name is Lassie 
dog temperature is 37 


你 可 以 发 现 ， 调 用 Dog 对 象 lassie 的 statusO) 函 数 可 以 打印 出 狗 的 名 字 和 
ESWE. Massie Ga, TRE MARAE 
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lassie.setTemperature (40) 


lassie.status() 
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In [19]: # create a new dog object from the Dog class 
lassie = Dog("Lassie", 37) 
In [20]: lassie.status() 


dog name is Lassie 
dog temperature is 37 


In [22]: lassie.setTemperature(40) 


In [23]: lassie.status( ) 


dog name is Lassie 
dog temperature is 40 


在 lassie 对 象 上 调用 setTemperature (40)〉， 确 实 改变 了 对 象 内 部 的 温 
FEI © 


我 们 已 经 学 到 了 很 多 对 象 相关 的 知识 ， 其 中 有 一 些 知识 是 高 级 主题 ， 
这 些 知 识 一 点 都 不 难 ， 我 们 真 的 应 访 为 目 己 感到 高 兴 ! 我 们 已 经 掌握 了 中 
人 够 的 Python 知识 ， 可 以 开始 制作 神经 网 络 了 。 


2.4 使 用 Python 制作 神经 网 络 


现在 ， 我 们 将 开始 旅程 ， 使 用 我 们 刚刚 学 习 的 Python 知识 制作 神经 网 


我 们 会 治 痢 这 个 旅程 ， 从 人 简单 开始 ， 小 步 前 进 ， 逐 步 建立 Python 程 
FF o 
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的 一 种 明 乔 的 方式 。 


在 完成 了 刚才 的 工作 之 后 ， 我 们 非常 自然 地 从 建立 神经 网 络 类 的 框架 
开始 ， 让 我 们 直接 前 进 吧 ! 

2.4.1 ”框架 代码 

让 我 们 勾勒 神经 网 络 类 的 大 概 样子 。 我 们 知道 ， 它 应 该 至 少 有 3 个 函 


© 初始 化 函数 一 一 设 定 输入 层 节 操 、 隐 下层 节 点 和 输出 层 市 点 的 数量 。 





。 训 练 一 学 习 给 定 训练 集 样本 后 ， 优 化 权重 。 
。 查 询 ”给 定 输入 ， 从 输出 节点 给 出 答案 。 





目前 ， 这 些 函 数 偿 未 完全 定义 ， 也 许 偿 需要 更 多 的 函数 ， 但 征 ， 融 目 
前 而 言 ， 让 我 们 从 这 些 函 数 起 步 。 


PH SiS SAEZ UI P AT AS: 





# neural network class definition 
class neuralNetwork 


# initialise the neural network 
def _init_ () 


pass 


# train the neural network 
def train() 


pass 
# query the neural network 


def query() 


pass 





这 个 开局 不 错 。 事 实 上 ， 这 是 一 个 坚实 的 框 保 ， 在 这 个 框架 上 ， 你 可 
以 充实 神经 网 络 工作 的 详细 细 市 了 。 


2.4.2 AU 
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市 点 的 数量 。 这 些 节操 数量 定义 了 神经 网 络 的 形状 和 和 尺寸。 我们 不 会 将 这 
些 数 量 国定， 而 是 当 我 们 使 用 参数 创建 一 个 新 的 神经 网 络 对 象 时 ， 才 会 确 
定 这 些 数 量 。 通 过 这 种 方式 ， 我 们 你 留 了 选择 的 余地 ， 轻 松 地 创建 人 不同 大 
小 的 新 神经 网 络 。 


在 我 们 刚刚 所 做 出 决定 中 ， 其 展 层 给 人 台 寿 一 个 重要 意义 。 优 秀 的 程序 
员 、 计 算 机 科学 家 和 数学 家 ， 只 要 可 能 ， 痢 尽力 创建 一 般 代 码 ， 而 不 是 县 
体 的 代码 。 这 是 一 种 好 习惯 ， 它 坦 使 我 们 以 一 种 更 深 更 广泛 的 适用 方式 中 
考 求 解 问 题 。 如 来 能 做 到 这 操 ， 束 意味 看 我 们 的 解决 方 条 可 以 适用 于 不 同 
的 场景 。 在 此 处 ， 这 意味 看 ， 我 们 将 上 尽 可 能 地 为 神经 网 络 开 友人 代码， 使 神 
经 网 络 你 持 尺 可 能 多 地 开放 有 用 的 选项 ， 并 将 假设 降低 到 最 低 限度 ， 从 而 
使 代码 很 容易 根据 不 同 需 要 得 到 使 用 。 我 们 希望 同一 个 类 可 以 创建 一 个 小 
Da A EERE Aa Ean JA a eE H ia AD at 
SRNE 。 
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有 用 参数 。 让 我 们 看 看 _init _ 0 函数 是 什么 样子 的 : 





# initialise the neural network 
def init ( 


self , inputnodes, hiddennodes, outputnodes, 
learningrate ) 


# set number of nodes in each input, hidden, output layer 


self . inodes = inputnodes 
self . hnodes = hiddennodes 
self . onodes = outputnodes 


# learning rate 


self . lr = learningrate 
pass 





让 我 们 使 用 所 定义 的 神经 网 络 类 ， 党 试 创 建 每 层 3 个 节点 、 学 习 率 为 
0.5 的 小 型 神经 网 络 对 象 。 


# number of input, hidden and output nodes 
input_nodes = 3 
hidden_nodes 3 
output_nodes 3 


# learning rate is 0.5 


learning_rate = 0.5 


# create instance of neural network 
n = neuralNetwork(input_nodes, hidden_nodes, output_nodes, 
learning_rate) 





当然 ， 这 段 代 人 码 创建 了 一 个 对 象 ， 但 是 由 于 我 们 还 没有 编 公 任何 函数 
执行 实际 的 工作 ， 因 此 这 个 对 象 还 没有 任何 用 途 。 没 关系 ， 从 小 处 看 眼 ， 
A 在 通 往 目 标的 途中 ， 傅 找 并 解决 问题 ， 这 十 一 种 很 好 的 


为 了 确保 读者 没有 迷失 方 辐 ， 下 图 显示 了 在 这 个 阶段 的 IPython 
Notebook， 其 中 包含 了 神经 网 络 类 的 定义 以 及 创建 对 象 的 代 人 码 。 


下 一 步 该 做 些 什 么 呢 ? 我 们 已 经 告诉 神经 网 络 的 对 象 ， 希 望 有 多 少 个 
输入 层 节 扣 、 隐 蕊 层 市 护 和 输出 层 市 点 ， 但 是 实际 上 ， 有 天 这 个 方面 的 任 
何 工 作 都 还 没有 开始 进行 呢 。 


oe ju pyter part2_neural_network Last Checkpoint: a few seconds ago (unsaved changes) all 
File Edit View Insert Cell Kernel Help Python3 O 
A + &« ®@ HR * © WH HM C Code $ Cell Toolbar: None 
In [1]: # neural network cla definition 
class neuralNetwork: 
# i iti alise the neural network 
Se __init_ (self, inputnodes, hi ddennodes, outputnodes, learningrate): 


Ji et number of nodes in each input, hidden, output layer 
elf. ES = Tan 

el ks odes = hiddennodes 

self.onodes = outputnodes 


# learning rate 
self.lr = learningrate 


pass 
# train the neural network 
def train(): 

pass 
# query th ral network 
def query() 

pa 


In [3]: # number of input, hidden and output nodes 
input_nodes = 3 
pa dete re Be = 3 


output_nodes 3 
# le ing rate is 0.3 
PEENE Aep = 0.3 


# create instance of neural network 
n = neuralNetwork(input_nodes,hidden_nodes,output_nodes, learning rate) 








2.4.3 权 
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我 们 使 用 这 些 权 重 来 计算 前 馈 信号 、 RRRA HEARE 
时 优化 链接 权重 本 身 。 


表 面 我 们 看 到 ， 可 以 使 用 矩阵 简明 地 表示 权重 。 因 此 ， 我 们 可 以 创 
SEE 


。 TAJR Pee < IE HY BEA EAE BEW input hidden > 大 小 为 hidden_ 
nodes FLA input_nodes. 

。 i Petia Ja Fan h Fe ZT HY BEA EAE BEW hidden output ， 大 小 为 
hidden_nodes 乘 以 output_nodes. 


请 齐 记 先前 的 规则 ， 来 看 看 为 什么 第 一 个 矩阵 的 大 小 是 input_nodes 乘 
以 hidden_nodes， 而 不 是 hidden_node 乘 以 input_nodes。 


请 记 住 ， 在 本 书 的 第 1 重 中 ， 链 接 权 重 的 初始 值 应 该 较 小 ， 并 且 是 随机 
的 。 下 面 的 numpy 函 数 生 成 一 个 数组 ， 数 组 中 元 系 为 0 一 1 的 随机 值 ， 数 组 


的 大 小 为 rows 乘 以 columns。 


numpy. random. rand( rows , columns ) 


MAREKET REMEH ERIR | OR ROK TE I 
python 函数 的 在 线 文 档 ， 甚 至 找到 了 他 们 不 知道 的 、 己 存在 的 非常 实用 的 
为 数 。Google 在 得 找 关 于 编程 的 信息 方面 特别 有 用 ， 例 如 此 处 描述 的 
numpy.random.rand() K 2X © 


如 朱 要 使 用 numpy 的 扩展 包 ， 那 么 需要 在 代 但 项 病 寻 入 库 。 


试 试 这 个 水 数 ， 并 自己 确认 函数 能 够 工作 。 下 图 显示 了 这 个 函数 可 以 
生成 3x3 的 numpy 数 组 。 数 组 中 的 每 个 值 都 是 0 一 1 的 随机 值 。 


In [1]: import numpy 


In [3]: numpy.random.rand(3, 3) 


Out[3]: array([[ 0.8133122 , 0.49193566, 0.14790496], 
[ 0.75997346, 0.15676617, 0.27449845], 
[ 0.03287221, 0.01884548, 0.17282894]]) 


我 们 其 实 可 以 做 得 更 好 。 我 们 忽略 了 权重 可 以 为 正 数 也 可 以 为 负数 。 
权重 的 范围 可 以 在 -1.0 到 +1.0 之 间 。 为 了 徐 单 起 匈 ， 我 们 可 以 将 上 面 数 组 中 
的 每 个 值 减 去 0.5， 这 样 ， 在 效 末 上 ， 数 组 中 的 每 个 人 都 成 为 了 -0.5 到 0.5 之 
下 图 显示 这 个 小 记 轩 成功 了 ， 你 可 以 看 到 一 些小 于 0 的 随机 


In [5]: numpy.random.rand(3, 3) - 0.5 


Out[5]: array([[ 0.143827 , -0.13728512, 0.24625022], 
[-0.41129188, 0.24551424, -0.43500754], 
[ 0.3188901 , 0.06173198, 0.18406137]}) 


我 们 已 经 准备 好 了， 在 Python 程 序 中 创建 初始 权 香 矩阵 。 权 和音 是 神经 
网 络 的 国有 部 分 ， 与 神经 网 络 共 存亡 ， 它 不 是 一 个 临时 数据 集 ， 不 会 随 看 
图 数 调 用 结束 而 消失 。 这 意味 痢 ， 权 重 必须 也 是 初始 化 的 一 部 分 ， 并 且 可 
以 使 用 其 他 函数 《如 训练 函数 和 奉 询 函数 ) 来 访问 。 


下 面 的 代码 包括 了 注释 ， 创 建 了 两 个 链接 权重 窃 阵 ， 并 使 用 self. 


inodes、self. hnodes 和 self. onodes 为 两 个 链接 权重 官 阵 设 置 了 合适 的 大 小 。 


# link weight matrices, wih and who 

# weights inside the arrays are w_1_j, where link is from node 
1 to node j in the next layer 

# w11 w21 


# w12 w22 etc 


self.wih = (numpy.random.rand(self.hnodes, self.inodes) - 0.5) 
self.who = (numpy.random.rand(self.onodes, self.hnodes) - 0.5) 





做 得 好 ! 我 们 已 经 实现 了 神经 网 络 的 心脏 ”链接 权重 和 矩阵 ! 
2.4.4 ”可 选项 ， 较 复杂 的 权重 


我 们 可 以 选择 这 种 简单 却 是 流行 的 优化 初始 权重 的 方式 。 


如 条 阅 读本 书 第 1 重头 于 准备 数据 以 及 初始 化 权重 的 讨论 ， 你 将 会 友 
现 ， 有 些 人 更 豆 欢 稍微 复杂 的 方法 来 创建 初始 随机 权重 。 他 们 使 用 正 态 概 
率 分 布 淋 样 权 重 ， 其 中 平均 信 为 0， 标 唯 方才 为 下 点 传人 链接 数目 的 开 方 ， 
即 1/V 传 入 链接 数目 。 


在 numpy 程 序 库 的 帮助 下 ， 这 是 很 容易 实现 的 。 同 样 ，Google 可 以 大 
助 我 们 找到 合适 的 文档 。numpy.random.normal0) 函 数 可 以 帮助 我 们 以 正 态 
分 布 的 方式 采样 。 由 于 我 们 所 需要 的 是 随机 矩阵， 而 不 是 单个 数字 ， 因 此 
采用 分 布 中 心 值 、 标 准 方差 和 numpy 数 组 的 大 小 作为 参数 。 


急 始 化 权重 的 更 新 代 人 码 看 起 来 如 下 所 示 : 





self.wih = numpy.random.normal 


( 0.0 


, pow(self.hnodes, -0.5) 
(self.hnodes, self.inodes) 


self.who = numpy.random.normal 


( 0.0 


, pow(self.onodes, -0.5) 


(self.onodes, self .hnodes) 


) 
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表达 式 ， 按 照 Python 的 形式 ， 束 是 pow(self.hnodes, -0.5)， 人 简单 说 来 ， 这 个 
表达 式 就 是 表示 节点 数目 的 -0.5 次 方 。 最 后 一 个 参数 ， 丈 是 我 们 希望 的 
numpy 数 组 的 形状 大 小 。 


2.45 ”但 询 网 络 


接 下 来 ， 顺 理 成 草 ， 我 们 现在 应 该 编写 训练 神经 网 络 的 代码 ， 填 写 当 
前 衬 的 train0 图 数 。 但 是 ， 还 是 等 一 下 册 写 train0 函 数 ， 让 我 们 先 编写 价 单 
的 queryO 函 数 吧 。 这 将 会 给 我 们 更 多 的 时 间 来 逐步 建立 信心 ， 获 得 使 用 
Python 和 神经 网 络 对 象 内 部 权重 窍 阵 的 实践 经 验 。 


query0O 函 数 接受 神经 网 络 的 输入 ， 返 回 网 络 的 输出 。 这 个 功能 非 癌 简 
单 ， 但 是 ， 为 了 做 到 这 一 点 ， 你 要 记 住 ， 我 们 需要 传递 来 目 输 入 层 节 氮 的 
mi Mas, WUE, a A AT WORE, Seta SIS 
2 re HY oie A BH Ts A, RANEH BEA is KE 
5S 激活 函数 抑制 来 自 这 些 市 点 的 信号 。 


如 朵 有 很 多 市 上 ， 那 么 我 们 残 面 临 看 一 个 很 可 怕 的 任务 ， 即 为 这 些 市 
氮 中 的 每 一 个 写 出 Python 代码 ， 进 行 权 重 调 节 ， 加 和 信号， 应 用 激活 函 
Blo WIS, (MEMS. Mh Ave HES! 好 在 我 们 知道 了 如 何 使 用 
简 早 简洁 的 窍 阵 形式 写 出 这 些 指令 ， 因 此 无 十 这 样 做 。 下 式 显 示 了 输入 层 
ee SPH PN ner 
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这 样 做 的 好 处 ， 不 仅 是 更 容易 书 与 ， 而 且 如 Python 这 样 的 编程 语言 


可 以 理解 窃 阵 ， 由 于 这 些 编 程 语言 认识 到 所 有 这 些 基 础 计算 之 间 的 相似 之 
处 ， 它 们 可 以 非常 有 效率 地 完成 所 有 实际 工作 。 


你 会 惊讶 于 Python 代码 实际 上 是 多 么 简单 ! 以 下 代码 应 用 了 numpy 代 
码 库 ， 将 链接 权重 矩阵 Wanut hidden 点 乘 输入 矩阵 I。 


hidden_inputs = numpy.dot(self.wih, inputs) 


计算 结束 ! 


这 一 段 简 单 的 Python 完 成 了 所 有 的 工作 ， 将 所 有 的 输入 与 所 有 正确 的 
链接 权重 组 合 ， 生 成 了 组 合 调节 后 的 信号 矩阵 ， 传 输 给 每 个 隐藏 层 节点 。 
如 果 下 一 次 选择 使 用 不 同 数量 的 输入 层 节点 或 隐藏 层 节点 ， 不 必 重 写 这 段 
代码 就 可 以 进行 工作 。 这 种 力量 与 优雅 就 是 我 们 先前 将 精力 投入 到 理解 如 
何 使 用 和 矩阵 乘法 的 原因 ， 


为 了 获得 从 隐 忠 层 太 上 扣 处 出 现 的 信 写 ， 我 们 简 早 地 将 S 抑 制 函 数 应 用 
到 每 一 个 出 现 的 信号 上 : 


O hidden = Sigmoid( X hidden ) 
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束 变 得 非常 容易 。 果 不 其 然 ! SciPy Python 库 有 一 组 特殊 的 函数 ， 在 这 组 也 
数 中 ，S 函 数 称 为 expit()。 不 要 问 我 为 什么 S 函 数 有 这 样 一 个 患 马 的 名 字 。 
可 以 像 寻 入 numpy 程 序 库 一 样 ， 守 入 scipy 函 数 库 : 


# scipy.special for the sigmoid function expit() 
import scipy.special 


由 于 我 们 可 能 希望 进行 实验 和 调整 ， 其 全 完全 改变 激活 函数 ， 因 此 当 
神经 网 络 对 象 初始 化 时 ， 在 神经 网 络 对 象 内 部 只 定义 一 次 $ 困 数 ， 这 么 做 
EPEN. EELE, REEI H SSAA, PE queryo KA 
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数 的 每 个 位 置 以 改变 其 代码 。 


在 神经 网 络 初始 化 部 分 的 代码 内 部 ， 下 列 代码 定义 了 和 斋 望 使 用 的 诅 活 


人 


PKI BL 





# activation function is the sigmoid function 
self.activation_function = lambda 


x: SCipy.special.expit(x) 


| 


这 是 什么 代码 ? 它 看 起 来 不 像 我 们 以 前 见 过 的 任何 代码 。lambda 是 什 
A? 这 看 起 来 可 能 有 点 令 人 生长 ， 但 是 实际 上 ， 这 并 不 可 介 。 这 里 所 做 的 
一 切 束 是 创建 一 个 函数 ， 束 像 创建 其 他 函数 一 样 ， 不 过 我 们 使 用 了 较 短 的 
方式 将 这 个 函数 写 出 来 了 了。 我 们 不 使 用 通 钊 的 defO 来 定义 函数 ， 在 此 ， 我 
们 使 用 神奇 的 lambda 来 创建 函数 ， 方 便 叉 快捷 。 这 个 函数 接受 了 了 x， 返回 
scipy.special.expit(x)， 这 了 束 古 函数 。 使 用 lambda 创 建 的 水 数 是 没有 名 字 
的 ， 经 验 丰 是 的 程序 员 豆 欢 称 它 们 为 匿名 函数 ， 但 是 这 里 分 配给 它 一 个 名 
字 self.activation_function0。 上 所 有 这 些 事情 意味 看 ， 无 论 何 时 任何 人 需要 使 
用 激活 函数 ， 那 么 他 所 需 做 的 驶 是 调用 self.activation_function()。 


器 到 手 上 的 任务 ， 我 们 要 将 激活 函数 应 用 a 到 组 合 调 整 后 ， 人 准备 进入 隐 
藏 层 节 点 的 信号 。 其 代 但 与 下 面 的 代码 一 样 测 单 : 


# calculate the signals emerging from hidden layer 
hidden_outputs = self.activation_function(hidden_inputs ) 
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也 是 一 样 的 。 这 童 味 看 代 公 也 非 第 相似 。 


看 看 下 面 的 代码 ， 这 些 代 人 码 总 结 了 我 们 如 何 计算 隐藏 层 信号 和 输出 层 





# calculate signals into hidden layer 
hidden_inputs = numpy.dot(self.wih, inputs) 


# calculate the signals emerging from hidden layer 
hidden_outputs = self.activation_function(hidden_inputs) 


# calculate signals into final output layer 
final_inputs = numpy.dot(self.who, hidden_outputs) 


# calculate the signals emerging from final output layer 
final_outputs = self.activation_function(final_inputs) 


如 来 删除 注释 ， 那 么 只 有 四 行 粗 体 显 示 的 代 公 进行 了 所 需 的 计算 ， 两 
行为 隐 妃 层 ， 两 行为 最 终 输 出 层 。 


2.4.6 iS AEN TRS 
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起 来 怎么 样 了 。 这 看 起 来 应 该 如 下 所 示 。 


# neural network class definition 
class neuralNetwork : 


# initialise the neural network 
def init__(self, inputnodes, hiddennodes, outputnodes, 
learningrate) 


# set number of nodes in each input, hidden, output 


layer 
self.inodes = inputnodes 
self.hnodes = hiddennodes 
self.onodes = outputnodes 


# link weight matrices, wih and who 

# weights inside the arrays are w_i_j, where link is 
from node i to node j in the next layer 

# w11 w21 

# w12 w22 etc 

self.wih = numpy.random.normal(0.0, pow(self.hnodes, 
-0.5), (self.hnodes, self.inodes)) 

self.who = numpy.random.normal(0.0, pow(self.onodes, 
-0.5), (self.onodes, self.hnodes)) 

# learning rate 

self.lr = learningrate 


# activation function is the sigmoid function 
self.activation_function = lambda x: 
scipy.special.expit(x) 


pass 


# train the neural network 
def train() 


pass 


# query the neural network 
def query(self, inputs_list) 


# convert inputs list to 2d array 
inputs = numpy.array(inputs_list, ndmin=2).T 


# calculate signals into hidden layer 

hidden_inputs = numpy.dot(self.wih, inputs) 

# calculate the signals emerging from hidden layer 

hidden_outputs = 
self.activation_function(hidden_inputs ) 


# calculate signals into final output layer 
final_inputs = numpy.dot(self.who, hidden_outputs) 


# calculate the signals emerging from final output 
layer 


final_outputs = self.activation_function(final_inputs) 


return final_outputs 


这 就是 类 的 代码 。 除 此 之 外 ， 应 该 在 Notebook 的 第 一 个 单元 格 中 ， 在 
代码 顶部 导入 numpy 和 scipy.special: 


import numpy 
# scipy.special for the sigmoid function expit() 


import scipy.special 





值得 一 提 的 是 ，query0O 函 数 只 需要 input_list。 它 不 需要 任何 其 他 输 
Des 


我 们 已 经 取得 了 很 好 的 进展 ， 现 在 ， 我 们 来 看 看 缺少 的 train0) 函 数 。 请 
记 住 ， 在 训练 神经 网 络 的 过 程 中 有 两 个 阶段 ， 第 一 个 阶段 束 是 计算 输出 ， 
dy mi 第 二 个 阶段 焉 是 反问 传播 误 牵 ， 告 知 如 何 优化 链 
ZIM HL o 


在 继续 编写 train() 函 数 并 使 用 样本 训练 网 络 之 前 ， 让 我 们 测试 目前 得 到 
的 所 有 的 代码 。 我 们 创建 一 个 小 网 络 ， 使 用 一 些 随机 输入 查询 网 络 ， 看 看 
网 络 如 何 工作 。 显 而 易 见 ， 这 样 做 不 会 有 任何 实际 音义， 只 是 为 了 使 用 刚 
KIE EE HI PK Z o 


下 图 显示 的 是 所 创建 的 小 型 网 络 ， 其 中 ， 在 输入 层 、 隐 藏 层 和 输出 层 
ii 每 层 有 3 个 节点 ， 并 且 使 用 随机 选择 的 输入 〈1.0，0.5，-1.5) 查询 网 


In [3]: # number of input, hidden and output nodes 


output_nodes = 3 


# learning rate is 0.3 
learning rate = 0.3 


# create instance of neural network 
n = neuralNetwork(input_nodes,hidden_nodes,output_nodes, learning rate) 


In [4]: n.query([{1.0, 0.5, -1.5]) 
Out[4]: array([[ 0.45122712], 


[ 0.44630336], 
[ 0.49183299}}) 


你 可 以 肥 现 ， 神 经 网 络 对 象 的 创建 确实 需要 设置 学 习 率 ， 即 使 现在 还 
不 使 用 这 个 学 习 率 。 神 经 网 络 类 的 定义 有 一 个 初始 化 函数 _init_0O， 这 个 
疯 数 需要 指定 一 个 学 习 紊 。 如 果 不 设 置 学 习 紊 ，Python 代 人 码 将 不 会 成 功 运 
行 ， 并 且 会 抛 出 错误 信息 。 
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表 。 由 于 还 设 有 训练 网 络 ， 这 个 输出 没有 实际 意义 ， 但 是 我 们 还 是 很 高 兴 
代码 没有 出 销 。 


2.4.7 ”训练 网 络 


现在 来 解决 这 个 稍微 复杂 的 训练 任务 。 训 练 任务 分 为 两 个 部 分 : 
。 第 一 部 分 ， 针 对 给 定 的 训练 样本 计算 输出 。 这 与 我 们 刚刚 在 duery0 函 


数 上 所 做 的 没什么 区 别 。 
。 第 二 部 分 ， 将 计算 得 到 的 输出 与 所 需 输 出 对 比 ， 使 用 产值 来 指导 网 络 
权重 的 更 新 。 


我 们 已 经 完成 了 第 一 部 分 ， 现 在 ， 先 把 这 部 分 与 出 来 : 


# train the neural network 

def train(self, inputs_list, targets_list): 
# convert inputs list to 2d array 
inputs = numpy.array(inputs_list, ndmin=2).T 
targets = numpy.array(targets_list, ndmin=2).T 


# calculate signals into hidden layer 
hidden_inputs = numpy.dot(self.wih, inputs) 
# calculate the signals emerging from hidden layer 


hidden_outputs = self.activation_function(hidden_inputs ) 


# calculate signals into final output layer 

final_inputs = numpy.dot(self.who, hidden_outputs) 

# calculate the signals emerging from final output layer 
final_outputs = self.activation_function(final_inputs) 


pass 





我 们 使 用 完全 相同 的 方式 从 输入 层 前 馈 信 号 到 最 终 输 出 层 ， 所 以 这 上 段 
代码 与 在 query0 函 数 中 的 几乎 完全 一 样 。 


由 于 逢 要 使 用 包含 期 望 值 或 目标 答案 的 训练 样本 来 训练 网 络 一 一 因此 
唯一 的 区 列 是 ， 这 部 分 代码 中 有 一 个 额外 的 参数 ， 印 在 函数 的 名 称 中 定义 


的 targets_jlist。 


def train 


(self, inputs_list, targets_list) 





这 上 段 代 码 还 把 targets_list 变 成 了 numpy 数 组 ， 束 像 inputs_list 变 成 humpy 
数组 一 样 。 


targets = numpy.array(targets_list, ndmin=2).T 


现在 ， 我 们 越 来 越 接近 神经 网 络 工作 的 核心 ， 即 基于 所 计算 输出 与 目 
标 输出 之 间 的 误 壮 ， 改 进 权 重 。 


让 我 们 按照 轻柔 可 控 的 步 又 ， 进 行 这 种 操作 。 

首先 需要 计算 误差 ， 这 个 值 等 于 训练 样本 所 提供 的 预期 目标 输出 值 与 
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final_outputs 中 每 个 对 应 元 素 相 减 得 到 的 。Python 代 但 非 旬 简单， 这 和 再 次 优 
外地 显示 了 矩阵 的 力量 。 


# error is the (target - actual) 
output_errors = targets - final_outputs 


我 们 可 以 计算 出 隐 含 层 节点 反 向 传播 的 误差 。 请 回忆 一 下 如 何 根据 所 
连接 的 权重 分 割 误 差 ， 为 每 个 隐藏 层 节点 重组 这 些 误差 。 对 于 这 个 计算 过 
程 ， 我 们 得 到 了 其 矩阵 形式 : 


_ e T ° 
errors hidden 一 weights hidden_output errors output 


由 于 Python 有 能 力 使 用 numpy 进 行 点 乘 ， 因 此 ， 这 上段 代码 再 简单 不 过 
T: 


# hidden layer error is the output_errors, split by weights, 
recombined at hidden nodes 


hidden_errors = numpy.dot(self.who.T, output_errors) 





这 样 ， 我 们 就 拥有 了 所 需要 的 一 切 ， 可 以 优化 各 个 层 之 间 的 权重 了 。 
对 于 在 隐 艇 层 和 最 终 层 之 加 的 权 军 ， 我 们 使 用 output_errors 进 行 优化 。 对 于 
sd 隐 羧 层 之 间 的 权重 ， 我 们 使 用 刚才 计算 得 到 的 hidden_errors 进 行 
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阵 形式 的 表达 式 : 


| 一 CC 一 一 一 一 一 一 一 一 rr 一 -一 一 一 -一 一 HS ol a — ] 


| 
| AW, = “a * E, * sigmoid ( O,) * (1 - sigmoid ( O,)) -> 0" 


a 是 学 习 率 ，sigmoid 古 先前 看 到 的 油 活 函数 。 请 记 住 ，* 习 法 是 正常 的 
对 应 元 素 的 乘法 ，*。 点 乘 是 矩阵 点 积 。 最 后 一 点 要 注意 ， 来 自 上 一 层 的 输出 
算 阵 个 转 置 了。 实际 上 ， 这 意味 看 输出 窍 阵 的 列 变 成 了 行 


在 Python 代码 中 ， 这 种 转换 很 容易 。 我 们 首先 为 隐藏 层 和 最 终 层 之 间 
的 权重 进行 编码 。 


# update the weights for the links between the hidden and output 
layers 


self.who += self.lr * numpy.dot( ( output_errors * final_outputs * 


(1.0 - final_outputs) 
) , numpy.transpose(hidden_outputs) 


) 





虽然 这 是 一 段 很 长 的 代码 ， (Ae, % 彩色 标记 应 该 有 助 于 发 现代 码 与 数 
学 表达 式 的 联系 。 和 学 习 率 是 self.]r， 它 就 是 很 简单 地 与 表达 去 的 其 余部 分 进 
行 相 乘 。 我 们 使 用 numpy.dot 进 行 算 阵 乘 法 ， 红 色 的 元 素 显 示 了 与 来 目下 一 
层 的 误 大 和 S 了 水 数 相 关 的 部 分 ， 绿 色 的 元 素 显 示 了 了 与 来 日 前 一 层 转 置 输出 
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简单 说 来 ，+ = 意思 是 将 先前 变量 增加 一 个 因此 ，x+=3， 意 思 
就 是 x 增加 3。 这 是 x = x + 3 的 简短 写法 。 toe ae 这 种 方法 表示 其 他 运 
算 ， 如 x / = 3 表示 X 除 以 3。 


用 于 输入 层 和 隐 殖 层 之 间 权 乍 的 代码 也 是 类 似 的 。 我 们 只 是 利用 对 称 
性 ， 重 写 代 码 ， 更 换 名 字 ， 这 样 它 们 指 的 融 是 神经 网 络 的 前 一 层 了 上。 下 面 
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# update the weights for the links between the hidden and output 
layers 
self. who 


+= self.lr * numpy.dot(( output_errors 


* final_outputs * 


(1.0 - final_outputs) 
), numpy.transpose(hidden_outputs) 


) 


# update the weights for the links between the input and hidden 
layers 

self. wih 

+= self.lr * numpy.dot(( hidden_errors 


* hidden_outputs * 


(1.0 - hidden_outputs) 


), numpy.transpose(inputs) 


) 


计算 结束 ! 


我 们 和 前 进行 的 所 有 工作 、 海 量 的 计算 、 努 力 得 到 的 窍 阵 方法 、 通 过 
榜 度 下 降 法 最 小 化 网 络 误 壮 ..… 所 有 的 这 些 都 变 成 了 以 上 简短 而 简 党 的 代 
码 ， 这 真是 难以 置信 ! 在 茶 种 意义 上 ， 这 是 Python 力量 的 表现 ， 但 是 ， 实 
了 奈 上 ， 这 是 我 们 努力 工作 并 简化 那些 很 容易 变 得 复 森 而 可 怕 事 情 的 结 


2.4.8 ”完整 的 神经 网 络 代码 
我 们 已 经 完成 了 神经 网 络 类 。 以 下 代码 仅 供 参考 ， 你 可 以 通过 以 下 链 
接 访 问 GitHub， 这 是 一 个 共享 代码 的 在 线 网 站 : 


e https://github.com/makeyourownneuralnetwork/makeyourownneuralnetworl 
blob/master/part2_neural_network.ipynb 





# neural network class definition 
class neuralNetwork : 


# initialise the neural network 
def init__(self, inputnodes, hiddennodes, outputnodes, 


learningrate) 


# set number of nodes in each input, hidden, output layer 


self.inodes = inputnodes 
self.hnodes = hiddennodes 
self.onodes = outputnodes 


# link weight matrices, wih and who 

# weights inside the arrays are w 1 ], where link is from 
node 1 to node j in the next layer 

# wil w21 

# w12 w22 etc 

self.wih = numpy.random.normal(0.0, pow(self.hnodes, -0.5), 
(self.hnodes, self.inodes) ) 

self.who = numpy.random.normal(0.0, pow(self.onodes, -0.5), 
(self.onodes, self.hnodes) ) 


# learning rate 
self.lr = learningrate 


# activation function is the sigmoid function 
self.activation_function = lambda x: scipy.special.expit(x) 


pass 


# train the neural network 
def train(self, inputs_list, targets_list) 


# convert inputs list to 2d array 
inputs = numpy.array(inputs_list, ndmin=2).T 
targets = numpy.array(targets_list, ndmin=2).T 


# calculate signals into hidden layer 

hidden_inputs = numpy.dot(self.wih, inputs) 

# calculate the signals emerging from hidden layer 
hidden_outputs = self.activation_function(hidden_inputs ) 


# calculate signals into final output layer 

final_inputs = numpy.dot(self.who, hidden_outputs) 

# calculate the signals emerging from final output layer 
final_outputs = self.activation_function(final_inputs) 

# output layer error is the (target - actual) 
output_errors = targets - final_outputs 

# hidden layer error is the output_errors, split by weights, 


recombined at hidden nodes 
hidden_errors = numpy.dot(self.who.T, output_errors) 


# update the weights for the links between the hidden and 
output layers 

self.who += self.lr * numpy.dot((output_errors * 
final_outputs * (1.0 - final_outputs)), 
numpy.transpose(hidden_outputs ) ) 


# update the weights for the links between the input and 
hidden layers 

self.wih += self.lr * numpy.dot((hidden_errors * 
hidden_outputs * (1.0 - hidden_outputs)), numpy.transpose 
(inputs) ) 

pass 


# query the neural network 
def query(self, inputs_list) 


# convert inputs list to 2d array 
inputs = numpy.array(inputs_list, ndmin=2).T 


# calculate signals into hidden layer 

hidden_inputs = numpy.dot(self.wih, inputs) 

# calculate the signals emerging from hidden layer 
hidden_outputs = self.activation_function(hidden_inputs ) 


# calculate signals into final output layer 

final_inputs = numpy.dot(self.who, hidden_outputs) 

# calculate the signals emerging from final output layer 
final_outputs = self.activation_function(final_inputs) 


return final_outputs 


这 些 代 人 码 可 用 于 创建 、 训 练 和 查询 3 层 神 经 网 络 ， 进 行 几 乎 任何 任务 ， 
这 人 么 看 来 ， 代 码 不 算 太 多 。 


下 一 步 ， 我 们 将 进行 特定 任务 ， 学 习 识 别 手 写 数 字 。 


25 “手写 数字 的 数据 集 MNIST 


识别 人 的 笔迹 这 个 问题 相对 复兴 ， 也 非 第 模糊 ， 因 此 这 是 一 种 检验 人 
工 智能 的 理想 挑 成 。 这 不 像 进 行 大 量 数 字 相 乘 那样 明确 清晰 。 


让 计算 机 准确 区 分 图 像 中 包含 的 内 容 ， 有 时 也 称 之 为 图 像 识 列 问 题 。 
科学 家 对 这 个 问题 进行 了 儿 十 年 的 研究 ， 下 到 最 近 ， 才 取得 了 一 些 比 较 好 
的 进展 ， 如 神经 网 络 这 样 的 方法 则 是 构成 这 些 飞 跃 的 重要 部 分 。 


为 了 让 你 对 图 像 识别 究竟 有 多 难 有 一 个 感性 认识 ， 举 个 例子 ， 人 类 有 
时 候 对 图 像 中 包含 的 内 容 有 不 同意 见 。 人 们 很 容易 对 手写 字符 实际 上 是 什 
么 产生 分 歧 意见 ， 特 别 对 于 书写 者 非常 匆忙 或 粗心 大 意 时 写 下 的 手写 字 
符 ， 更 是 如 此 。 看 一 看 下 面 的 手写 数字 ， 这 是 个 4 还 是 9? 
IE; 
ae 
10 | 
i5 F 
20 + 





0 5 05DA 


ATE RE NAEH EAT IN FS BA RU ATT er AE 
和 算法 。 这 侠 图 片 众所周知 ， 非 常 流行 ， 这 意味 看 我 们 很 容易 与 其 他 研究 
者 比较 ， 检 验 我 们 最 近 关 于 图 像 识 列 的 狗 狂 想法 拖 葛 有 多 优秀 。 


这 个 数据 集 称 为 手写 数字 的 MNIST 数 据 库 。 从 受 人 尊敬 的 神经 网 络 研 
究 员 Yann LeCun 的 网 站 http://yann.lecun.com/exdb/mnist/ ， 可 以 得 到 这 个 数 
据 集 。 


这 个 网 页 也 列 出 了 在 学 习 和 正确 识别 这 些 手 与 字符 方面 ， 这 些 新 旧 想 
法 的 表现 如 何 。 我 们 将 会 多 次 提 到 这 个 列表 ， 看 看 比 起 专业 人 士 我 们 的 想 
法 表现 如 何 ! MNIST 数 据 库 的 格式 不 容易 使 用 ， 因 此 其 他 人 已经 创建 了 相 
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文件 称 为 CSV 文 件 ， 
隔 的 。 你 可 以 轻松 地 在 任何 文本 编辑 器 中 查看 这 


式 集 http://www.pjreddie.com/media/files/mnis 
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顾名思义 ， 训 练 集 是 用 来 训练 神经 网 络 的 60 000 个 标记 样本 集 。 标 记 


川 练 集 http://www.pjreddie.com/media/files/mnis 
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可 以 使 用 较 小 的 只 有 10 000 个 样本 的 


工作 的 好 坏 程度 。 由 于 这 


这 个 网 站 提供 了 两 个 CSV 文 件 : 
否 得 到 正确 的 答案 。 
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网 络 简单 地 记忆 训练 数据 ， 得 到 一 个 完 关 、 但 是 有 欺骗 性 的 得 分 。 在 整个 


对 简单 的 数据 文件 格式 ， 参 见 http://pjreddie.com/projects/mnist-in-csv/ ， 
格 和 数据 分 析 软 件 也 兼容 CSV 文 件 ， 它 们 是 非常 通用 的 相 


对 我 们 非常 有 帮助 。 
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IE! 这 看 起 来 好 像 出 事 了 ! 就 像 在 20 世 纪 80 年 代 的 电影 中 一 样 ， 计 算 
机 个 黑客 攻击 了 。 


其 实 一 切 痢 很 好 。 我 们 很 容易 看 到 ， 文 本 编辑 着 显 示 很 长 的 文本 ， 这 
些 行 由 使 用 逗号 分 阳 的 数字 组 成 。 这 些 行 非 弟 长， 以 至 于 它们 折 行 了 好 几 
次 。 对 我 们 有 瑚 助 的 是 ， 这 个 文本 编辑 规 在 边缘 旺 示 了 实际 的 行 号 ， 可 以 
看 到 完整 的 4 行 数据 以 及 第 5 行 的 一 部 分 数据 。 


在 文本 中 ， 这 些 记 录 或 这 些 行 的 内 容 很 容易 理解 : 


。 第 一 个 值 是 标签 ， 即 书号 者 实际 希望 表示 的 数字 ， 如 “72” 或 “9”。 这 是 
我 们 希望 神经 网 络 学 习 得 到 的 正确 答案 。 

。 | 钉 后 的 值 ， 由 带 写 分 隔 ， 是 手写 体 数 字 的 像 系 值 。 像 系数 组 的 尺寸 是 
28 末 以 28， 因 此 在 标签 后 有 784 个 值 。 如 果 想 知道 这 是 否 有 784 个 值 ， 
> ee 


因此 ， 第 一 个 记录 表示 数 子 “5”， 束 是 所 显示 的 第 一 个 值 ， 这 行文 本 的 
其 余部 分 是 茶 人 的 手 与 数字 5 的 像 系 值 。 第 二 个 记录 表示 数 子 “0”， 第 三 个 
记录 表示 数字 “4”"， 第 四 个 记录 表示 “1”， 第 五 个 表示 “9”。 你 可 以 从 MNIST 
数据 文件 中 挑选 任 一 行 ， 第 一 个 数字 各 诉 你 接 下 来 图 像 数 据 的 标签 是 什 
Z o 


但 是 ， 从 这 个 长 达 784 个 值 的 列表 中 ， 人 们 很 难看 出 这 些 数 字 组 成 了 某 
人 手写 数字 5 的 图 片 。 我 们 会 将 这 些 数 字 绘 制 为 图 像 ， 让 读者 确认 这 784 个 
值 真 的 是 手写 数字 的 像素 值 。 


在 深入 研究 进行 这 样 操 作 之 前 ， 我 们 应 该 下 载 MNIST 数 据 集中 的 一 个 
较 小 的 子 集 。MNIST 效 据 的 数据 文件 是 相当 大 的 ， 而 较 小 的 子 集 意 味 看 我 
们 可 以 实验 、 等 试 和 开 及 代码 ， 而 不 会 由 于 大 量 的 数据 集 而 拖 慢 计算 机 的 
速度 ， 因 此 小 数据 集 还 是 大 有 神 蔓 的 。 一 旦 确定 了 乐于 使 用 的 算法 和 代 
但， 我 们 束 可 以 使 用 完整 的 数据 集 。 


以 下 是 MNIST 数 据 集中 较 小 子 集 的 链接 ， 也 是 以 CSV 格 式 存 储 的 : 


e MNIST 测 试 数据 集中 的 10 条 记录 一 一 https://raw.githubusercontent.com/ 
makeyourownneuralnetwork/makeyourownneuralnetwork/master/mnist_dat. 
mnist test 10.CSV 

e MNIST 训 练 数据 集中 的 100 条 记录 一 https://raw. githubusercontent.com/ 
makeyourownneuralnetwork/makeyourownneuralnetwork/master/mnist_dat. 








mnist train 100.CSV 


如 果 浏 贤 妖 显示 的 是 数据 而 不 是 目 动 下 载 ， 可 以 使 用 “File — Save As 
”手动 保存 文件 ， 或 在 浏览 器 上 进行 等 效 操作 。 


将 数据 文件 保存 到 方便 操作 的 位 置 。 我 将 数据 文件 保存 在 名 为 “mnist_ 
dataset2” 的 文件 夹 中 ， 这 个 文件 夹 束 在 IPython 的 Notebook 文 件 芳 边 ， 如 下 面 
的 屏幕 截图 所 示 。 如 果 IPython 的 Notebook 文 件 和 数据 文件 散落 在 计算 机 的 
各 个 地 方 ， 那 就 会 变 得 很 混乱 。 


© 9 © part2 
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Favorites Name Date Modified Kind 


©) AirDrop v mnist_dataset 22 Feb 2016, 17:15 - Folder 


mnist_test_10.csv 9 Jun 2015, 22:55 Plain Text 
mnist_test.csv 4 Dec 2013, 01:19 Plain Text 
Co iCloud Drive mnist_train_100.csv 9 Jun 2015, 22:55 Plain Text 
TAN Applications mnist_train.csv 4 Dec 2013, 01:19 Plain Text 
part2_mnist_data_set.ipynb 22 Feb 2016, 16:46 Document 
part2_neural_network.ipynb 22 Feb 2016, 16:06 Document 
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在 使 用 数据 做 任何 事情 之 前 ， 比 如 绘图 或 使 用 数据 训练 神经 网 络 ， 我 
们 需要 找到 一 种 方式 来 用 Python 代 码 得 到 这 些 数据 。 


在 Python 中 ， 打 开 文 件 并 获取 其 中 的 内 容 是 一 件 非常 容易 的 事 悄 。 先 
来 泗 示 一 下 这 个 操作 ， 然 后 册 做 出 解释 。 看 看 下 面 的 代码 : 


data_file 


= open("mnist_dataset/mnist_train_100.csv", 'r') 
data_list 


= data_file 


.readlines() 
data_file 


.close() 





这 里 只 有 3 行 代 码 。 让 我 们 一 一 进行 讨论 。 


第 一 行使 用 open0 函 数 打开 一 个 文件 。 传 递 给 图 数 的 第 一 个 参数 是 文 
件 的 名 称 。 其 实 ， 这 不 仅仅 是 文件 名 “mnist_train_100.csv”， 这 是 整个 路 
径 ， 其 中 包括 了 文件 所 在 的 目录 。 第 二 个 参数 是 可 选 的 ， 它 只 是 告诉 
Python 我 们 和 希望 如 何 处 理 文 件 。“" 告 诉 Python 以 只 读 的 方式 而 不 是 可 写 的 
方式 打开 文件 。 这 样 可 以 避免 任何 更 改 数据 或 删除 数据 的 意外 。 如 果 试 图 
写 入 文件 、 修 改 文件 ，Python 将 阻止 并 生成 一 条 错误 消息 。 


变量 data_file 是 什么 ? openO 函 数 创 建 了 此 文件 的 一 个 文件 句柄 、 一 个 
引用 ， 我 们 将 这 个 句柄 分 配给 命名 为 data_file 的 变量 。 现 在 已 经 打开 了 文 
件 ， 任 何 进一步 的 操作 ， 如 读 取 文件 ， 都 将 通过 句柄 完成 。 


下 一 行 代 码 很 徐 单 。 使 用 与 文件 句柄 data_file 相 关 的 readlinesO 函 数 ， 
将 文件 中 的 所 有 行 读 入 变量 data_list。 这 个 变量 包含 了 一 个 列表 ， 列 表 中 
的 一 项 是 表示 文件 中 一 行 的 字符 串 。 在 列表 中 ， 可 以 跳 到 特定 的 条 目 ， 类 
似 地 ， 也 可 以 跳 到 文件 中 特定 的 行 ， 这 样 这 个 列表 束 有 用 多 了 。 因 此 
data_list [0] 是 第 一 条 记录 ，data_list [9] 是 第 十 条 记录 ， 以 此 类 推 。 


顺便 说 一 句 ， 由 于 readlinesO) 会 将 整个 文件 读 取 到 内 存 中 ， 因 此 你 可 能 
会 听 到 别人 告诉 你 不 要 使 用 这 种 方法 。 他 们 会 告诉 你 ， 一 次 读 取 一 行 ， 对 
这 行进 行 所 需要 进行 的 操作 ， 然 后 移动 到 下 一 行 。 他 们 都 没有 错 ， 不 要 将 
整个 文件 恋 入 内 存 中 ， 而 是 一 次 在 一 行 上 工作 ， 这 更 有 效率 。 人 但是， 我们 
的 文件 不 是 很 大 ， 如 果 使 用 readlines()， 那 么 代码 相对 容易 一 些 ， 对 我 们 而 
言 ， 在 学 习 Python 时 人 简单 和 清晰 是 很 重要 的 。 


最 后 一 行 代码 关 财 文件 。 和 在 用 完 如 文件 这 样 的 资源 后 ， 关 财 和 清理 文 
件 是 一 种 很 好 的 做 法 。 如 果 不 这 样 做 ， 文 件 依然 开 看 ， 这 可 能 会 造成 问 
题 。 什 么 问题 呢 ?” 有 些 程序 可 能 不 希望 写 入 处 在 打开 状态 的 文件 ， 以 免 导 
致 不 一 致 。 这 吏 像 是 两 个 人 试图 在 同一 张 纸 上 写 信 ! 有 时 候 ， 计 算 机 可 能 
会 锁定 文件 ， 防 止 友 生 这 种 冲突 。 如 果 使 用 完 文件 不 清理 ， 那 么 你 束 有 一 
EN EE PO PER RE 
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创建 一 个 新 的 空 的 Notebook， 试 试 这 段 代 人 码 ， 妆 打印 出 列表 的 元 系 
时 ， 观 察 友 生 了 什么 。 下 图 显示 了 这 种 操作 的 结 末 。 


In [8]: data file = open("mnist_dataset/mnist_train_100.csv", 'r') 
data_list = data_file.readlines() 
data_file.close() 


In [9]: len(data_list) 


Out[9]: 100 


In [10]: data list[0] 


Out[10]: ‘'5,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0 
,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,3,18,18,18,126,136,175,26,166,255,247,127,0, 

,30,36,94,154,170,253,253,253,253,253,225,172,253,242,195,64,0,0,0,0,0,0,0,0,0,0,0,49,238,253,25 

53,251,93,82,82,56,39,0,0,0,0,0,0,0,0,0,0,0,0,18,219,253,253,253,253,253,198,182,247,241,0,0,0 

,0,0,0,0,80,156,107,253,253,205,11,0,43,154,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,14,1,154,253, 

0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,139,253,190,2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,11 
5 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,35,241,225,160,108,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 
,0,0,0,0,81,240,253,253,119,25,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,45,186,253,253,150,27,0,0,0,0,0,0,0,0 

,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,16,93,252,253,187,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,249,253,249,64,0,0 

,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,46,130,183,253,253,207,2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,39,148,229,253, 

253,253,250,182,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,24,114,221, 253,253, 253,253,201,78,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0 

213,25 0,0,0,0,0 5 0 
0 0 253,244 
0 0 


oo. s 
` 


0 
,0,23,66,213 3,253,253,253,198,81,2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,18,171,219,253,253,253,253,195,80,9,0,0,0,0,0,0 
,0,0,0,0,0,0,0,0,0,0,55,172,226,253,253,253,253,244,133,11,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,136,253,253,253,212,13 
5,132,16,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0\n' 


可 以 看 到 ， 列 表 的 长 度 为 100 。Python 的 len0) 函 数 告诉 我 们 列表 的 大 


小 。 


还 可 以 看 到 第 一 条 记录 data_list [0] 的 内 容 。 第 一 个 数字 是 “5”， 这 是 标 
人 窒 ， 并 有 日 其 余 的 784 个 数字 是 构成 图 像 像 系 的 闫 色 值 。 如 果 你 仔细 观察 ， 可 
以 发 现 这 些 颜 色 值 似乎 介 于 0 和 255 之 间 。 


你 可 能 希望 看 看 其 他 记录 ， 看 看 在 其 他 记录 中 是 否 也 是 这 样 的 。 你 会 
及 现 ， 两 色 值 确实 落 到 了 0 到 255 的 范围 内 。 


先前 ， 我 们 确实 看 到 了 如 何 使 用 imshow0 函 数 绘制 数字 矩形 数组 。 在 
这 里 ， 我 们 要 做 的 事情 是 相同 的 ， 但 是 需要 将 使 用 运 号 分 隅 的 数字 列表 转 
换 成 合适 的 数组 。 要 达到 这 个 目标 ， 珊 要 进行 以 下 的 步骤 : 


° gman 有 逗号 分 隔 ， 长 的 文本 字符 串 值 ， 拆 分 成 单个 值 ， 在 逗号 处 进行 分 
| 

。 包 略 第 一 个 值 ， 这 是 标签 ， 将 剩余 的 28 x 28 = 784 个 值 转换 成 28 列 28 
行 的 数组 。 

o 绘制 数组 ! 


同样 ， 先 演示 可 以 执行 这 个 任务 的 简单 Python 代 人 码 ， 然 后 讨论 代码， 
最 后 更 评 细 地 解释 所 肥 生 的 事情 ， 这 是 最 人 简 竺 的 学 习 方 式 。 


自 完 ， 一 定 个 要 起 记 叶 入 Python 扩 展 亩 ， 这 将 有 助 于 我 们 使 用 数组 以 
及 进行 给 图: 


EE numpy | 


import matplotlib.pyplot 
%matplotlib inline 


看 看 下 和 而 3 行 代码 。 变 量 已 经 看 色 了， 这 样 更 容易 理解 在 何 处 使 用 何 种 
JE o 


all values 
= data_list 


[0].split( ,) 
image_array 


= numpy.asfarray( all_values 


[1:]).reshape( (28, 28) ) 
matplotlib.pyplot.imshow( image_array 


, Cmap='Greys', 
interpolation=’ None’ ) 





行 代码 接受 了 刚才 打印 出 来 的 data_list [0]， 这 是 第 一 条 记录 ， 根 
ae 将 这 长 串 进 行 拆 分 。 eR AA RR E, 其 中 有 一 
个 参数 后 诉 函 数 根据 哪个 符号 进行 拆 分 。 在 这 个 例子 中 ， 这 个 符号 为 逗 
写 。 得 到 的 结果 将 放 到 all_values 中 。 可 以 将 这 个 变量 打印 出 来 ， 检 查 这 确 
实 是 Python 中 长 列表 的 值 。 


有 有 几 件 事情 发 生 在 同一 行 代 码 中 ， 因 此 下 一 行 代 码 看 起 来 相对 复 淋 。 
让 我 们 从 核心 开始 解释 。 核 心 是 all_values 列 表 ， 但 是 这 次 使 用 了 方 括号 
: ]， 表 示 采 用 除了 列表 中 的 第 一 个 元 聚 以 外 的 所 有 全， 也 残 是 忽略 第 
个 标签 值 ， 只 要 剩 下 的 784 个 值 。numpyasfarrayO 是 一 个 numpy 函 数 ， 这 个 
图 数 将 文本 字符 串 转 换 成 实数 ， 并 创建 这 些 数字 的 数组 。 


等 等 一 将 文本 字符 串 转 换 为 数字 ， 这 是 什么 意思 ? 咽 ， 文 件 是 以 文 
本 的 形式 恋 取 的 ， 每 一 行 或 每 一 条 记录 依然 是 文本 。 由 有 速 气 分 割 每 一 行 得 
到 的 仍然 是 文本 片段 。 文 本 可 以 是 单词 “apple”*orange1232” 或 “567”。 文 本 
字符 串 “567” 与 数字 567 不 同 。 因 此 ， 即 使 文本 看 起 来 像 数 字 ， 我 们 也 需要 
将 文本 字符 串 转 换 为 数字 。 最 后 一 项 .reshape ( (28,28) ) 可 以 确保 数字 
列表 每 28 个 元 素 折 返 一 次 ， 形 成 28 乘 28 的 方形 矩阵 。 所 得 到 的 28 乘 28 的 数 

2H 44 Aimage_arrayo "A! XA Z EREE TREF., 


第 三 行 代码 非常 简单 ， 就 是 使 用 imshow0O 函 数 绘 出 image_arravV。 
AK. 


这 一 次 ， 选 择 灰 度 调 色 板 一 一 cmap=“Greys (KE) ”， 以 更 好 地 显示 
手写 字符 。 


BAMA SIR BONS ZEA: 





In [32]: all_values = data_list[0].split(',') 
image _array = numpy.asfarray(all_ values[1:]).reshape( (28,28) ) 
matplotlib.pyplot.imshow(image array, cmap='Greys', interpolation='None' ) 


Out[32]: <matplotlib.image.AxesImage at 0x108818cc0> 





可 以 看 到 绘制 的 图 像 是 5， 这 束 是 标签 所 表示 的 预期 数字 。 如 果 转 而 选 
择 下 一 条 记录 data_list [1]， 而 这 条 记录 的 标签 为 0， 就 可 以 得 到 下 面 的 图 


F o 


In [37]: all_values = data _list[1].split(',') 
image_array = numpy.asfarray(all values[1:]).reshape((28,28)) 
matplotlib.pyplot.imshow(image array, cmap='Greys', interpolation='None' ) 


Out[37]: <matplotlib.image.AxesImage at 0x108bc3160> 





可 以 很 容易 地 分 辨 出 手写 数字 人 确实 是 0。 


2.5.1 ”准备 MNIST 训 练 数 据 


我 们 已 经 知道 如 何 获 取 和 折 开 MNIST 数 据 文件 中 的 数据 ， 从 而 理解 并 
可 视 化 这 些 数 据 。 我 们 要 使 用 此 数据 训练 神经 网 络 ， 但 是 我 们 需要 想 想 ， 
在 将 数据 抛 给 神经 网 络 之 前 如 何 准备 数据 。 


我 们 先前 看 到 ， 如 下 输入 数据 和 输出 值 ， 形 状 正好 适合 ， 这 样 它 们 束 
pA 那么 神经 网 络 的 工作 会 更 出 


我 们 需要 做 的 第 一 件 事情 是 将 输入 颜色 人 从 较 大 的 0 到 255 的 和 范围， 给 
放 至 较 小 的 0.01 到 1.0 的 范围 。 我 们 刻意 选择 0.01 作 为 范围 最 低 点 ， 和 是 为 了 
避免 匈 前 观察 到 的 0 值 输入 最 终 会 人 为 地 造成 权重 更 新 失败 。 我 们 没有 选择 
0.99 作 为 输入 的 上 限 值 ， 征 因为 不 需要 避免 输入 1.0 会 造成 这 个 问题 。 我 们 
只 需要 避免 竹 出 值 为 1.0。 


m 将 在 0 到 255 范 围 内 的 原始 输入 值 除 以 255， 就 可 以 得 到 0 到 1 范围 的 输入 


然后 ， 需 要 将 所 得 到 的 输入 乘 以 0.99， 把 它们 的 范围 变 成 0.0 到 0.99。 
接 下 来 ， 加 上 0.01， 将 这 些 值 整体 偏 移 到 所 需 的 沁 围 0.01 到 1.00。 下 面 的 
Python 代 人 码 演 示 了 这 些 操作 : 


scaled_input = (numpy.asfarray(all_values[1:]) / 255.0 * 0.99) + 0.01 
print(scaled_input ) 





输出 确认 ， 这 些 值 当 前 的 范围 为 0.01 到 0.99。 


In [19]: # scale input to range 0.01 to 1.00 
scaled _input = (numpy.asfarray(all_values[1:]) / 255.0 * 0.99) + 0.01 
print(scaled_input) 


[ 0.01 0.01 0.01 0.01 0.01 0.01 0.01 


0.01 0.01 0.01 0.01 0.01 0.01 0.01 
0.01 0.01 0.01 0.01 0.01 0.01 0.01 
0.01 0.01 0.01 0.01 0.01 0.01 0.01 
0.01 0.01 0.01 0.01 0.01 0.01 0.01 
0.01 0.01 0.01 0.01 0.01 0.01 0.01 
0.01 0.01 0.01 0.01 0.01 0.01 0.01 
0.01 0.01 0.01 0.01 0.01 0.01 0.01 
0.01 0.01 0.01 0.01 0.01 0.01 0.01 
0.01 0.01 0.01 0.01 0.01 0.01 0.01 
0.01 0.01 0.01 0.01 0.01 0.01 0.01 
0.01 0.01 0.01 0.01 0.01 0.01 0.01 
0.01 0.01 0.01 0.01 0.01 0.01 0.01 
0.01 0.01 0.01 0.01 0.01 0.01 0.01 
0.01 0.01 0.01 0.01 0.01 0.01 0.01 
0.01 0.01 0.01 0.01 0.01 0.01 0.01 
0.01 0.01 0.01 0.01 0.01 0.01 0.01 
0.01 0.01 0.01 0.01 0.01 0.01 0.01 
0.01 0.208 0.62729412 0.99223529 0.62729412 0.20411765 

0.01 0.01 0.01 0.01 0.01 0.01 0.01 
0.01 0.01 0.01 0.01 0.01 0.01 0.01 
0.01 0.01 0.01 0.01 0.01 0.01 0.01 
0.01 0.19635294 0.934 0.98835294 0.98835294 0.98835294 

0.93011765 0.01 0.01 0.01 0.01 0.01 0.01 
0.01 0.01 0.01 0.01 0.01 0.01 0.01 
0.01 0.01 0.01 0.01 0.01 0.01 0.01 
0.01 0.21964706 0.89129412 0.99223529 0.98835294 0.93788235 

0.91458824 0.98835294 0.23129412 0.03329412 0.01 0.01 0.01 


我 们 已 经 通过 缩放 和 移 位 让 MNIST 数 据 准 备 就 纤 ， 可 以 输入 神经 网 络 
进行 训练 和 查询 了 。 


现在 ， 我 们 需要 思考 神经 网 络 的 输出 。 先 前 ， 我 们 看 到 输出 值 应 该 四 L 
配 激活 函数 可 以 输出 值 的 范围 。 我 们 使 用 的 逻辑 函数 不 能 输出 如 -2.0 或 255 
这 样 的 数字 ， 能 输出 的 范围 为 0.0 到 1.0， 事 实 上 不 能 达到 0.0 或 1.0， 这 是 逻 
辑 函 数 的 极限 值 ， 逻 辑 函 数 仅 接近 这 两 个 极限 ， 但 不 能 真正 到 达 那 里 。 因 | 
此 ， 看 起 来 在 训练 时 必须 调整 目标 值 。 


但 是 ， 实 际 上 ， 我 们 要 问 自己 一 个 更 深层 次 的 问题 。 输 出 应 该 是 什么 
样子 的 ? 这 应 该 是 图 片 答案 吗 ? 这 意味 着 有 28x28 = 784 个 输出 节点 。 


如 果 退 后 一 步 ， 想 想 要 求 神经 网 络 做 什么 ， 我 们 会 意识 到 ， 要 求 神 经 
网 络 对 图 像 进行 分 类 ， 分 配 正 确 的 标签 。 这 些 标签 是 0 到 9 共 10 个 数字 中 的 
一 个 。 这 意味 看 神经 网 络 应 访 有 10 个 输出 层 节 扣 ， 每 个 节 反对 应 一 个 可 能 
的 众生 或 标 位 。 如 来 答案 是 “0”， 输 出 层 第 一 个 市 反 油 有 友 ， 而 其 余 的 输出 市 
扩 则 你 持 搞 制 状态 。 如 末 管 条 是 “9”， 输 出 层 的 最 后 市 辟 会 英 及 ， 而 其 余 的 
ni 
从 出。 


label example “5” example “0” example “9” 


0 0.00 0.95 0.02 
l 0.00 0.00 0.00 
2 0.01 0.0] 0.01 


3 0.00 0.01 0.01 


OOO000000O 


0.01 0.02 0.40 
> 0.99 0.00 0.0] 
6 0.00 0.00 0.01 
7 0.00 0.00 0.00 
8 0.02 0.00 0.01 
9 0.01 0.02 0.86 


第 一 个 示例 是 神经 网 络 认 为 它 看 到 的 是 数字 “5”。 可 以 看 到 ， 从 输出 层 
出 现 的 最 大 信号 来 自 于 标签 为 5 的 节点 。 由 于 从 标签 0 开始 ， 因 此 这 是 第 六 
个 节点 。 这 很 容易 吧 。 其 余 的 输出 市 点 产生 的 信号 非常 小 ， 接 近 于 零 。 舍 
a en aoe oe Te 
Hy LOI o 


下 一 个 示例 演示 了 如 果 神 经 网 络 认为 它 看 到 了 手写 的 “0” 将 会 发 生 的 事 
情 。 同 样 ， 目 前 最 大 输出 来 自 于 第 一 个 输出 节点 ， 对 应 的 标签 为 “0”。 


最 后 一 个 示例 更 有 趣 。 这 里 ， 神 经 网 络 的 最 大 输出 信号 来 目 于 最 后 一 
个 下 氮 ， 对 应 标签 “9”。 然 而 ， 在 标 釜 为 “4 的 节点 处 ， 它 得 到 了 中 等 大 小 
的 输出 。 通 第 ， 我 们 会 使 用 最 大 信号 为 答 采 ， 但是， 可 以 看 看 网 络 为 何 会 
认为 答案 可 能 是 “4”。 也 许 笔迹 使 得 它 难 以 确定 ? 神经 网 络 中 确实 会 发 生 这 
种 不 确定 性 ， 我 们 不 应 该 把 它 看 作 是 一 件 坏 事 ， 而 应 该 将 其 视 为 有 用 的 见 
解 ， 即 万 一 个 答案 也 可 能 满足 条 件 。 

这 上 真是 太 棒 了 ! 现在 ， 我 们 需要 把 这 些 想 法 转换 成 目标 数组 ， 用 于 神 
经 网 络 的 训练 。 


如 果 训 练 样本 的 标签 为 “<5”， 那 么 需要 创建 输出 节点 的 日 标 数 组 ， 其 中 
除了 对 应 于 标签 “5” 的 节点 ， 其 他 所 有 节点 的 值 应 该 都 很 小 ， 这 个 数组 看 起 
来 可 能 如 [0，0，0，0，0，1，0，0，0，0]。 


事实 上 ， 我 们 已 经 明白 了 ， 试 图 让 神经 网 络 生 成 0 和 1 的 输出 ， 对 于 激 
活 函 数 而 言 是 不 可 能 的 ， 这 会 导致 大 的 权重 和 饱和 了 网络， 因此 需要 重新 调 
整 这 些 数 字 。 我 们 将 使 用 值 0.01 和 0.99 来 代替 0 和 1， 这 样 标签 为 “5” 的 目标 
输出 数组 为 [0.01, 0.01, 0.01, 0.01, 0.01, 0.99, 0.01, 0.01, 0.01, 0.01]. 


FFL SS FA Python( tis, AERIENE SA i AEM: 


#output nodes is 10 (example) 
onodes = 10 
targets = numpy.zeros(onodes) + 0.01 


targets[int(all_values[0])] = 0.99 





INVER, BATAI R eT A A100 FER SAN Bl 
中 ， 这 是 正确 的 ， 因 为 有 10 个 标签。 


第 二 行 代码 只 是 使 用 方便 的 numpy 函 数 numpyzerosO0， 创 建 用 零 项 充 
的 数组 。 这 个 困 数 的 第 一 个 参数 是 硕 望 的 数组 大 小 和 形状 。 此 处 ， 我 们 只 
希望 得 到 一 个 简单 的 、 长 度 为 onodes 的 数组 ，onodes 为 最 终 输 出 层 的 节点 
数量 。 我 们 加 上 了 0.01， 解 决 刚才 谈 到 的 0 输入 造成 的 问题 。 


下 一 行 代 人 码 获 得 了 MNIST 数 据 集 记 录 中 的 第 一 个 元 素 ， 也 就 是 训练 目 
标 标 签 ， 将 其 从 字符 串 形式 转换 为 整数 形式 。 请 记 住 ， 从 源 文 件 读 取 的 记 
录 是 文本 字符 串 ， 而 不 是 数字 。 一 旦 转换 完成 ， 我 们 使 用 目标 标签 ， 将 日 
标 列 表 的 正确 元 素 设 置 为 0.99。 标 签 “0” 将 转换 为 整数 0， 这 与 标签 对 应 的 
targets [] 中 的 索引 是 一 至 的 ， 因 此 这 看 起 来 非 党 整洁。 类 似 地 ， 标 签 “9” 将 
转换 为 整数 9，targets [9] 确 实 是 此 数组 的 最 后 一 个 元 系 。 


下 面 展示 了 这 种 工作 方式 的 一 个 示例 : 


In [12]: #output nodes is 10 (example) 
onodes = 10 
targets = numpy.zeros(onodes) + 0.01 
targets[int(all values[0])] = 0.99 
In [13]: print(targets) 


[| 0.99 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01) 
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以 及 如 何 准备 用 于 训练 的 输出 数据 。 


让 我 们 更 新 Python 代码 ， 使 其 包括 这 些 操 作 。 下 面 代码 是 迄今 为 止 开 


发 的 代码 。 这 些 代 码 在 以 下 GitHub 链 接 中 可 以 得 到 ， 但 是 ， 随 着 添加 越 来 
越 多 的 代码 ， 代 人 码 会 逐渐 演变 : 


e https://github.com/makeyourownneuralnetwork/makeyourownneuralnetworl 
blob/master/ part2_neural_network_mnist_data.ipynb 


也 可 以 在 以 下 的 链接 中 找到 开发 代码 ， 通 过 这 个 链接 ， 可 以 看 到 以 前 
ye : 


e https://github.com/makeyourownneuralnetwork/makeyourownneuralnetworl 
commits/master/part2_neural_network_mnist_data.ipynb 


# python notebook for Make Your Own Neural Network 

# code for a 3-layer neural network, and code for learning the MNIST 
dataset 

# (c) Tariq Rashid, 2016 

# license is GPLv2 


import numpy 

# scipy.special for the sigmoid function expit() 

import scipy.special 

# library for plotting arrays 

import matplotlib.pyplot 

# ensure the plots are inside this notebook, not an external window 
%matplotlib inline 


# neural network class definition 
class neuralNetwork: 


# initialise the neural network 
def _ init__(self, inputnodes, hiddennodes, outputnodes, 
learningrate): 
# set number of nodes in each input, hidden, output layer 
self.inodes = inputnodes 
self.hnodes = hiddennodes 
self.onodes = outputnodes 


# link weight matrices, wih and who 

# weights inside the arrays are w_ 1 ]J, where link is from 
node 1 to node j in the next layer 

# w11 w21 

# w12 w22 etc 

self.wih = numpy.random.normal(0.0, pow(self.hnodes, -0.5), 
(self.hnodes, self.inodes)) 

self.who = numpy.random.normal(0.0, pow(self.onodes, -0.5), 
(self.onodes, self.hnodes)) 

# learning rate 

self.lr = learningrate 


# activation function is the sigmoid function 
self.activation_function = lambda x: scipy.special.expit(x) 


pass 


# train the neural network 

def train(self, inputs_list, targets_list): 
# convert inputs list to 2d array 
inputs = numpy.array(inputs_list, ndmin=2).T 
targets = numpy.array(targets_list, ndmin=2).T 


# calculate signals into hidden layer 

hidden_inputs = numpy.dot(self.wih, inputs) 

# calculate the signals emerging from hidden layer 
hidden_outputs = self.activation_function(hidden_inputs ) 


# calculate signals into final output layer 

final_inputs = numpy.dot(self.who, hidden_outputs) 

# calculate the signals emerging from final output layer 
final_outputs = self.activation_function(final_inputs) 


# output layer error is the (target - actual) 

output_errors = targets - final_outputs 

# hidden layer error is the output_errors, split by weights, 
recombined at hidden nodes 

hidden_errors = numpy.dot(self.who.T, output_errors) 


# update the weights for the links between the hidden and 
output layers 

self.who += self.lr * numpy.dot((output_errors * 
final_outputs * (1.0 - final_outputs)), 
numpy.transpose(hidden_outputs ) ) 


# update the weights for the links between the input and 
hidden layers 

self.wih += self.lr * numpy.dot((hidden_errors * 
hidden_outputs * (1.0 - hidden_outputs)), numpy.transpose(inputs) ) 


pass 
# query the neural network 
def query(self, inputs_list): 
# convert inputs list to 2d array 
inputs = numpy.array(inputs_list, ndmin=2).T 


# calculate signals into hidden layer 

hidden_inputs = numpy.dot(self.wih, inputs) 

# calculate the signals emerging from hidden layer 
hidden_outputs = self.activation_function(hidden_inputs ) 


# calculate signals into final output layer 
final_inputs = numpy.dot(self.who, hidden_outputs) 


# calculate the signals emerging from final output layer 
final_outputs = self.activation_function(final_inputs) 


return final_outputs 


# number of input, hidden and output nodes 
input_nodes = 784 

hidden_nodes = 100 
output_nodes = 10 


# learning rate is 0.3 
learning_rate = 0.3 


# create instance of neural network 
n = neuralNetwork(input_nodes, hidden_nodes, output_nodes, 
learning_rate) 


# load the mnist training data CSV file into a list 

training _data_file = open("mnist_dataset/mnist_train_100.csv", '‘'r') 
training_data_list = training_data_file.readlines() 
training_data_file.close() 


# train the neural network 


# go through all records in the training data set 
for record in training_data_list: 
# split the record by the ',' commas 
all values = record.split(',') 
# scale and shift the inputs 
inputs = (numpy.asfarray(all_values[1:]) / 255.0 * 0.99) + 0.01 
# create the target output values (all 0.01, except the desired 
label which is 0.99) 
targets = numpy.zeros(output_nodes) + 0.01 
# all_values[0O] is the target label for this record 
targets[int(all_values[0])] = 0.99 
n.train(inputs, targets) 
pass 


在 代码 顶部 导入 了 绘图 库 ， 添 加 了 一 些 代 码 ， 设 置 输入 层 、 隐 藏 层 和 
输出 层 的 大 小 ， 读 取 相 对 较 小 的 MNIST 训 练 数 据 集 ， 然 后 使 用 这 些 记录 训 
练 神经 网 络 。 


为 什么 选择 784 个 输入 节点 呢 ? 请 记 住 ， 这 是 28x28 的 结果 ， 即 组 成 手 
写 数 字 图 像 的 像素 个 数 。 


选择 使 用 100 个 隐藏 层 布 点 并 个 是 通过 使 用 科学 的 方法 得 到 的 。 我 们 认 
为 ， 和 神经 网 络 应 该 可 以 友 现 在 输入 中 的 特征 或 模式 ， 这 些 柑 式 或 特征 可 以 
使 用 比 输入 本 喘 更 简短 的 形 却 表达 ， 因 此 没有 选择 比 784 大 的 数字 。 通 过 选 


择 使 用 比 输入 克 点 的 数量 小 的 值 ， 强 制 网 络 符 斌 总结 输 入 的 主要 特点 。 但 
是 ， 如 末 选 择 太 少 的 隐藏 层 节 扣 ， 那 么 融 限 制 了 网 络 的 能 力 ， 使 网 络 难以 
找到 尼 够 的 特征 或 借 式 ， 也 吏 会 刊 革 神经 网 络 表 过 其 对 MNIST 数 据 理解 的 
能 力 。 给 定 的 输出 层 需要 10 个 标签 ， 对 应 于 10 个 输出 层 节 点 ， 因 此 ， 选 择 
100 这 个 中 间 值 作为 中 间 隐 藏 层 的 市 反 数 量 ， 似 乎 有 扣 媳 理 。 


这 里 应 该 强调 一 点 。 对 于 一 个 问题 ， 应 该 选择 多 少 个 隐藏 层 节 点 ， 并 
不 存在 一 个 最 佳 方法 。 同 时 ， 我 们 也 没有 最 佳 方法 选择 需要 几 层 隐藏 层 。 
就 目前 而 言 ， 最 好 的 办 法 是 进行 实验 ， 直 到 找到 适合 你 要 解决 的 问题 的 一 
个 数 空 
站 数字。 


2.5.2 MARN 


现在 ， 我 们 至 少 已 经 使 用 了 一 个 较 小 的 100 条 记录 的 子 集 来 训练 网 络 ， 
ao 使 用 称 为 测试 数据 集 的 第 二 个 数据 集 来 测试 
ALE ME o 


i 自 完 需要 获得 鹿 试 记录 ， 这 与 用 于 获取 训练 数据 的 Python 代 人 码 非 第 相 
以 。 


# load the mnist test data CSV file into a list 
test_data_file = open("mnist_dataset/mnist_test_10.csv", 'r') 
test_data_list = test_data_file.readlines() 


test_data_file.close() 





=" 这 些 数 据 具 有 相同 的 结构 ， 我 们 以 同样 的 方式 解压 了 这 
些 数据 。 

在 创建 循环 使 用 所 有 训 试 记录 进行 测试 之 前 ， 先 看 看 如 末 于 动 运行 一 
个 测试 会 肥 生 什么 。 下 图 显示 从 测试 数据 集中 取出 第 一 条 记录 ， 碍 询 当 前 
己 得 到 训练 的 神经 网 络 。 


可 以 看 到 ， 测 试 数据 集 的 第 一 条 记录 具有 标签 “7”。 这 是 当 我 们 查询 这 
条 记录 时 ， 我 们 希望 神经 网 络 给 出 的 回答 ， 


绘制 像素 值 ， 使 数据 变 成 图 像 ， 我 们 确认 该 手写 数字 的 确 为 <7”。 
查询 已 得 到 训练 的 网 络 ， 生 成 了 对 应 每 个 输出 节点 所 输出 的 一 串 数 


子 。 你 很 快 束 会 友 现 ， 其 中 一 个 输出 值 比 其 他 输出 从 大 很 多 ， 且 对 应 于 标 
签 “7”。 由 于 第 一 个 元 系 对 应 于 标签 “0”， 因 此 这 就 是 第 8 个 元 系 。 





In [27]: # load the mnist test data CSV file into a list 
test_data_file = open("mnist_dataset/mnist_test_10.csv", 'r') 
test data list = test_data_file.readlines() 
test_data_file.close() 


In [39]: # get the first test record 
all _ values = test_data_list[0].split(',') 
# print the label 
sprint (all_values[0}) 


> 
In [40]: image_array = numpy.asfarray(all_values[1:]).reshape((28,28)) 
matplotlib.pyplot.imshow(image array, cmap='Greys', interpolation='None' ) 


out [40]: <matplotlib.image.AxesImage at 0x1090d4fd0> 





In [41]: n.query((numpy.asfarray(all_values[1:]) / 255.0 * 0.99) + 0.01) 


Out[41]: array([[ 0.07652418], 
[ 0.01745079], 
[ 0.0054554 J, 
[ 0.07442751], 
[ 0.07348178], 
[ 0.01906993], 
[ 0.00938124], 
[ 0.7704694 ]， 
[ 0.08000447], 
{ 0.052091311]) 


成 功 了 ! 


I RE TA 
JE ! 


我 们 训练 了 神经 网 络 ， 让 神经 网 络 告诉 我 们 图 片 中 所 代表 的 数字 是 什 
么 。 请 记 住 ， 神 经 网 络 之 前 没有 见 过 那 张 图 片 ， 它 不 是 训练 数据 集 的 一 部 
分 。 因 此 ， 神 经 网 络 能 够 正确 区 分 它 从 来 没有 见 过 的 手写 字符 。 这 真是 让 
人 印象 深刻 啊 ! 


只 需 几 行 简单 的 Python， 我 们 束 已 经 创建 了 一 个 神经 网 络 ， 这 个 神经 
网 络 可 以 执行 许多 人 认为 是 具备 人 工 智 能 的 事情 一 一 它 学 会 了 识别 人 的 笔 
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更 令 人 称奇 的 是 ， 我 们 只 是 使 用 完整 的 训练 数据 集 的 一 个 小 子 集 对 宰 
经 网 络 进 行 了 训练 。 请 记 住 ， 训 练 数据 集 有 60 000 条 记录 ， 我 们 只 训练 了 
100 条 记录 。 我 曾经 认为 这 不 能 成 功 ! 让 我 们 扯 满 徐帆 ， 继 续 前 进 ， 编 写 代 
码 来 看 看 神经 网 络 对 数据 集 的 其 余 记 录 有 何 表现 。 我 们 可 以 记录 分 数 ， 这 
样 壕 些 时 候 ， 再 看 看 改进 神经 网 络 学 习 能 力 的 想法 是 否 能 够 成 功 ， 同 时 也 
可 以 比较 一 下 其 他 神经 网 络 的 表现 如 何 。 


最 简单 的 方式 就 是 察看 下 面 的 代码 ， 并 根据 这 些 代 码 进行 讨论 : 
# test the neural network 


# scorecard for how well the network performs, initially empty 
scorecard = | 


# go through all the records in the test data set 
for record in test_data_list: 
# split the record by the ',' commas 
all values = record.split(',') 
# correct answer is first value 
correct_label = int(all_values[0] ) 
print(correct_label, "correct label") 
# scale and shift the inputs 
inputs = (numpy.asfarray(all_values[1:]) / 255.0 * 0.99) + 0.01 
# query the network 
outputs = n.query(inputs) 
# the index of the highest value corresponds to the label 
label = numpy.argmax(outputs) 
print(label, "network's answer") 
# append correct or incorrect to list 
if (label == correct_label): 
# network's answer matches correct answer, add 1 to 
scorecard 
scorecard.append(1) 
else: 
# network's answer doesn't match correct answer, add 0 to 
scorecard 
scorecard.append(0) 
pass 
pass 





循环 可 以 使 用 测试 数据 集中 的 所 有 记录 进行 测试 ， 在 跳 进 这 个 循环 之 
前 ， 创 建 一 个 空 的 列表 ， 称 为 计 分 卡 〈scorecard) ， 这 个 记分 卡 在 测试 每 
条 记录 之 后 都 会 进行 更 新 。 


可 以 看 到 ， 在 循环 内 部 ， 我 们 所 做 的 与 先前 所 做 的 一 样 ， 根 据 避 号 拆 
分 文本 记录 ， 分 离 出 数值 。 记 下 第 一 个 数字 ， 这 古 正确 答案 。 然 后 ， 重 新 


调整 剩 下 的 值 ， 让 和 它们 适合 用 于 奏 询 神经 网 络 。 
我 们 将 来 目 神经 网 络 的 回答 保存 在 名 为 outputs 的 变量 中 。 


接 下 来 是 非常 有 趣 的 一 点 。 我 们 知道 具有 最 大 值 的 输出 节点 是 网 络 认 
为 的 答 守 。 这 个 布点 的 索引 ， 也 束 是 节点 的 位 置 ， 与 标签 对 应 。 亲 话 少 
说 ， 也 束 是 第 一 个 元 素 对 应 于 标签 “0”， 人 第 五 元 闵 对 应 于 标签 “4”， 以 此 类 
推 。 圣 运 的 是 ， 有 一 个 便利 的 00mpy 孙 数 numpy.argmax0 可 以 发 现 数 组 中 的 
最 大 值 ， 并 告诉 我 们 它 的 位 置 。 你 可 以 在 线 阅 读 天 于 这 个 函数 的 文档 。 如 
果 这 个 函数 返回 90， 我 们 知道 网 络 认为 答案 是 零 ， 以 此 类 推 。 


代码 的 最 后 一 部 分 将 标签 与 已 知 的 正确 标签 进行 比较 。 如 果 它 们 是 相 
同 的 ， 那 么 在 计 分 卡 上 附加 一 个 “1”?， 否 则 附加 <0”。 


在 代码 中 ， 我 已 经 包含 了 一 些 有 用 的 printO 指 令 ， 这 样 融 可 以 看 到 正 
人 下 图 旺 示 了 代码 运行 的 结 未 ， 同 时 打印 出 了 计 分 


7 correct label 
7 network's answer 
2 correct label 
0 network's answer 
1 correct label 
1] network's answer 
0 correct label 
0 network's answer 
4 correct label 
4 network's answer 
1] correct label 
l network's answer 
4 correct label 
4 network's answer 
9 correct label 
4 network's answer 
5 correct label 
4 network's answer 
9 correct label 
7 network's answer 


In [49]: print(scorecard) 
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# calculate the performance score, the fraction of correct answers 
scorecard_array = numpy.asarray(scorecard) 
print ("performance = ", scorecard_array.sum() / 


scorecard_array.size) 





re Sa Te, FB SEWER a. BI Tat 
上 “1 的 条 目 相 加 ， 除 以 计 分 卡 的 条 目 总 数 ， 即 这 个 计 分 卡 的 大 小 。 来 看 看 
这 段 代 人 码 生 成 的 结果 。 


In [49]: print(scorecard) 


gy 0, l, l, l, l, 1, 0, 0, 0 ] 


In [59]: # calculate the performance score, the fraction of correct answers 
scorecard array = numpy.asarray(scorecard) 
print ("performance = ", scorecard array.sum() / scorecard array.size) 
performance = 0.6 


正如 我 们 预期 的 ， 这 段 代码 生成 了 分 数 0.6， 即 60% 的 准确 率 。 
2.5.3 ”使 用 完整 数据 集 进 行 训 练 和 测试 


让 我 们 将 这 些 已 开 友 的 测试 网 络 性 能 的 新 代码 ， 洪 加 a 到 主要 程序 中 。 


此 时 改变 文件 名 ， 这 样 束 可 以 指 问 具有 60 000 条 记录 的 完整 的 训练 数 
据 集 ， 以 及 具有 10 000 条 记录 的 测试 数据 集 。 先 前 ， 我 们 将 这 些 文 件 保 存 
为 mnist_dataset / mnist_train.csv 和 mnist_dataset / mnist_test.csv。 现 在， 我 们 
BUR I! 请 记 住 ， 你 可 以 访问 GitHub 获 取 Python 的 Notebook 文 件 : 


e https://github.com/makeyourownneuralnetwork/makeyourownneuralnetworl 
blob/master/part2_neural_network_mnist_data.ipynb 


在 GitHub 上 ， 也 可 以 得 到 历史 代码 ， 这 样 就 可 以 看 到 代码 的 开发 过 


fE: 


e https://github.com/makeyourownneuralnetwork/makeyourownneuralnetworl 
commits/ma ster/part2_neural_network_mnist_data.ipynb 


使 用 60 000 个 训练 样本 训练 简单 的 3 层 神经 网 络 ， 然 后 使 用 10 000K id 
录 对 网 络 进行 测试 ， 得 到 的 总 表现 分 数 为 0.9473。 这 个 表现 简直 太 棒 了 ， 


几乎 是 95% 的 准确 率 ! 


In [72]: # calculate the performance score, the fraction of correct answers 
scorecard array = numpy.asarray(scorecard) 
print ("performance = ", scorecard _array.sum() / scorecard array.size) 
performance = 0.9473 


这 个 略 低 于 95% 的 准确 性 ， 可 以 与 记录 
在 http://yann.lecun.com/exdb/mnist/ 网 页 的 行业 标准 媲美 。 我 们 可 以 看 到 ， 
比 起 一 些 历史 基准 ， 这 个 准确 紊 还 是 略 胜 一 筹 的 ， 这 里 列 出 的 最 简单 的 神 
EE ean E HEE ONE 
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实现 了 研究 者 所 开 友 的 专业 神经 网 络 的 性 能 。 


顺便 说 一 句 ， 计 算 60 000 个 训练 样本 ， 每 个 样本 的 计算 都 需要 进行 一 
组 784 个 输入 节点 、 经 过 100 个 隐 叱 层 节 点 的 前 馈 计 算 ， 同时 还 要 进行 误 到 
反馈 和 权重 更 新 ， 即 使 对 于 一 台 快 速 的 现代 家 用 计算 机 而 言 ， 这 一 切 也 需 
要 花 上 一 段 时 间 ， 这 一 点 都 不 令 人 吃惊 。 我 的 新 笔记 本 计算 机 花 了 约 2 分 钟 
时 间 完 成 了 训练 循环 。 你 的 计算 机 应 该 也 差不多 。 


2.5.4 ”一 些 改进 : 调整 学 习 率 


我 们 的 第 一 个 神经 网 络 ， 只 使 用 简单 的 思路 、 简 单 的 Python 代码 ， 束 
可 以 在 MNIST 数 据 集 上 获得 准确 率 为 95% 的 性 能 分 数 ， 这 已 经 很 不 错 了 。 
如 果 你 希望 就 此 打住 ， 也 完全 可 以 理解 的 。 


但 是 ， 让 我 们 看 看 是 否 可 以 进行 一 些 簿 单 的 改进 。 


可 以 笠 试 的 第 一 个 改进 是 调整 学 习 康 。 先 前 没有 真正 使 用 不 同 的 值 进 
行 实验 ， 就 将 它 设 置 为 0.3 了 。 

试 一 下 将 学 习 率 翻 倍 ， 设 置 为 0.6， 看 看 提高 学 习 率 对 整个 网 络 的 学 习 
能 力 是 否 有 益 。 如 果 此 时 运行 代码 ， 会 得 到 0.9047 性 能 得 分 。 这 比 以 前 更 
we 
动 和 超 调 。 


使 用 0.1 的 学 习 诗 和 再 试 一 次 。 这 次 ， 性 能 有 所 改善 ， 得 到 了 0.9523 分 。 


在 性 能 上 ， 这 与 网 站 上 列 出 的 具有 1 000 个 隐藏 层 节 点 的 神经 网 络 类 似 。 我 
们 “以 少 胜 多 ”了 。 


如 条 继续 设置 一 个 更 小 的 0.01 学 习 率 ， 会 及 生 什 么 情况 ?性 能 没有 变 
得 更 好 ， 得 分 为 0.9241。 因 此 ， 似 乎 过 小 的 学 习 率 也 古 有 害 的 。 


由 于 限制 了 标 度 下 降 友 生 的 速度 ， 使 用 的 步 长 太 小 了 ， 因 此 对 性 能 千 
成 了 损害 ， 这 个 结束 也 是 有 道理 的 。 


下 图 画 出 了 这 些 结果 。 我 们 应 该 多 次 进行 了 这 些 实验 ， 减 小 随机 性 以 
及 在 梯度 下 降 过 程 中 不 好 的 路 径 带 来 的 影响 ， 只 有 这 样 的 方法 才 是 科学 
的 ， 但 是 这 依然 能 够 有 助 于 我 们 明白 一 个 总 体 思路 ， 那 就 是 对 于 学 习 率 存 
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学 习 率 


上 图 表明 ， 学 习 率 在 0.1 和 0.3 之 间 可 能 会 有 较 好 的 表现 ， 因 此 ， 党 试 
0.2 的 学 习 率 ， 得 到 0.9537 的 性 能 得 分 。 比 起 0.1 或 0.3， 这 个 表现 确实 好 了 一 
些 。 我 们 可 以 绘制 图 表 ， 对 所 发 生 的 事情 得 到 一 种 较 好 的 认识 ， 在 其 他 情 
况 下 ， 你 也 应 该 考虑 这 种 方法 一 和 一 串 数字 相 比 ， 图 表 有 助 于 更 好 地 理 
解 ! 因此 ， 我 们 将 坚持 使 用 0.2 的 学 习 率 ， 这 看 起 来 似乎 是 MNIST 数 据 集 和 
神经 网 络 的 甜蜜 点 。 


顺便 说 一 句 ， 由 于 代码 运行 的 整个 过 程 有 一 点 随机 ， 因 此 ， 如 果 你 目 
己 运行 这 段 代 码 ， 成 绩 会 略 有 不 同 。 你 的 初始 随机 权重 可 能 不 同 于 我 的 初 
始 随机 权重 ， 因 此 你 的 代码 与 我 的 代码 所 使 用 的 梯度 下 降 路 线 有 上 所 不 同 。 


2.5.5 ”一 些 改 进 : ZWZ 


接 下 来 可 以 做 的 改进 ， 和 是 使 用 数据 集 ， 重 复 多 次 进行 训练 。 


有 些 人 把 训练 一 次 称 为 一 个 世代 。 因 此 ， 共 有 10 个 世代 的 训练 ， 蚀 味 
着 使 用 整个 训练 数据 集运 行程 序 10 次 。 为 什么 要 这 么 做 呢 ? 特别 是 ， 如 果 
这 次 计算 机 花 的 时 间 增 加 到 10 或 20 长 至 30 分 钟 呢 ? RATS, JRA ea 
WHE he eM RRL, ARNT epi P ELTE HP ETT A HET 


试 一 下 使 用 2 个 世代 。 由 于 现在 我 们 在 训练 代码 外 围 讨 加 了 额外 的 循 
环 ， 因 此 代码 稍 有 改变 。 下 面 的 代码 显示 了 外 围 循环 ， 将 代码 看 色 有 助 于 
看 到 友 生 了 什么 。 


# train the neural network 


# epochs is the number of times the training data set is used for 
training 
epochs = 2 


for e in range(epochs): 


# go through all records in the training data set 
for record in training_data_list: 

# split the record by the ',' commas 

all_ values = record.split(',') 

# scale and shift the inputs 


inputs = (numpy.asfarray(all_values[1:]) / 255.0 * 0.99) + 
0.01 


# create the target output values (all 0.01, except the 
desired label which is 0.99) 

targets = numpy.zeros(output_nodes) + 0.01 

# all_values[0O] is the target label for this record 

targets[int(all_values[0])] = 0.99 

n.train(inputs, targets) 

pass 





使 用 2 个 世代 神经 网 络 所 得 到 的 性 能 得 分 为 0.9579， 比 只 有 1 个 世代 的 
神经 网 络 有 上 所 改进 。 


束 像 调整 学 习 率 一 梓 ， 让 我 们 使 用 几 个 不 同 的 世代 进行 实验 并 绘图 ， 
以 可 视 化 这 些 效 率 。 下 和 沉香 诉 我 们 ， 所 做 的 训练 越 多 ， 所 得 到 的 性 能 越 
好 。 有 人 可 能 会 注意 到 ， 太 多 的 训练 实际 上 会 过 犹 不 及 ， 这 是 由 于 网 络 过 
度 拟 合 训练 数据 ， 因 此 网 络 在 先前 设 有 见 到 过 的 新 数据 上 表现 不 佳 。 不 仅 
旦 神经 网 络 ， 在 各 种 关 型 的 机 硕 学 习 中 ， 这 种 过 度 拟 合 也 是 需要 注意 的 。 


及 生 的 事情 如 下 所 未 : 
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结果 呈现 出 不 可 预测 性 。 在 大 约 5 或 7 个 世代 时 ， 有 一 个 甜蜜 点 。 在 此 


之 后 ， 性 能 会 下 降 ， 这 可 能 是 过 度 拟 合 的 效 朱 。 人 性 能 在 6 个 世代 的 情况 下 下 
降 ， 这 可 能 是 运行 中 出 了 问题 ， 寻 致 网 络 在 梯度 下 降 过 程 中 和 极 卡 在 了 一 个 
局 部 的 最 小 值 中 。 事 实 上 ， 由 于 没有 对 每 个 数据 点 进行 多 次 实验 ， 无 法 减 
小 随机 过 程 的 影响 ， 因 此 我 们 已 经 预见 到 结果 会 有 各 种 变化 。 这 就 是 为 什 
么 体 留 了 6 个 世代 这 个 柯 怪 的 点 ， 这 是 为 了 提醒 我 们 ， 神 经 网 络 的 学 习 过 程 
其 核心 是 随机 过 程 ， 有 时 候 工 作 得 不 错 ， 有 时 候 工 作 得 很 糟 。 


另 一 个 可 能 的 原因 是 ， 在 较 大 数目 的 世代 情况 下 ， 学 习 率 可 能 设置 过 
高 了 。 继 续 这 个 实验 ， 将 学 习 率 从 0.2 减 小 到 0.1， 看 看 会 发 生 什么 情况 。 


在 7 个 世代 的 情况 下 ， 峰 值 性 能 高 达 0.9628 或 96.28%。 
下 图 显示 了 在 学 习 率 为 0.1 情 况 下 ， 得 到 的 新 性 能 与 前 一 幅 图 闭 加 的 情 
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可 以 看 人 到， 在 更 多 世代 的 情况 下 ， 减 小 学 习 率 确实 能 够 得 到 更 好 的 性 
能 。0.9689 的 峰值 表示 误差 率 接 近 3%， 这 可 以 与 Yann LeCun 网 站 上 的 神经 
网 络 标准 相 媲 美 了 。 


直观 上 ， 如 果 你 打算 使 用 更 长 的 时 间 (EAER) 探索 梯度 下 降 ， 那 
么 你 可 以 承受 采用 较 短 的 步 长 (学 习 率 ) ， 并 且 在 总 体 上 可 以 找到 更 好 的 
路 径 ， 这 是 有 道理 的 。 确 实 ， 对 于 MNIST 学 习 任 务 ， 我 们 的 神经 网 络 的 甜 
蜜 点 看 起 来 是 5 个 世代 。 请 再 次 记 住 ， 我 们 在 使 用 一 种 相当 不 科学 的 方式 来 
进行 实验 。 要 正确 、 科 学 地 做 到 这 一 点 ， 束 必须 为 每 个 学 习 率 和 世代 组 合 
进行 多 次 实验 ， 尽 量 减 少 在 梯度 下 降 过 程 中 随机 性 的 影 啊 。 


2.5.6 ”改变 网 络 形状 


我 们 还 没有 符 试 过 改变 神经 网 络 的 形状 ， 也 许 应 该 更 早 答 试 这 件 事 。 
让 我 们 试看 改变 中 间 隐 藏 层 节 扣 的 数目 。 一 二 以 来 ， 我 们 将 它们 设置 为 
100! 


EEA AN EA H Be TS RA ETT SEZ, LEE FP 
如 朱 这 样 做 可 能 会 及 生 什 么 情况 。 隐 基层 是 友 生 学 习 过 程 的 层次 。 请 记 
住 ， 输 入 市 反 只 需 引 入 输入 信 写 ， 输 出 市 把 只 要 壕 出 神经 网 络 的 答案 ， 十 
Poa CAVA RD 进行 学 习 ， 将 输入 转变 为 答 采 。 这 是 学 习 友 生 的 场 


所 。 事 实 上 ， 隐 藏 层 市 点 前 后 的 链接 权 香 共有 学 习 能 


如 果 隐 藏 层 节 扣 太 少 ， 比 如 说 3 个 ， 那 么 你 可 以 想象 ， 这 不 可 能 有 丰 够 
的 空间 让 网 络 学习 任 何 知 识 ， 并 将 所 有 输入 转换 为 正确 的 输出 。 这 就 像 要 5 
座 和 车 去 载 10 个 人 。 你 不 可 能 将 那么 多 人 宅 进 去 。 计 算 机 科学 家 称 这 种 限制 
为 学 习 容 量 。 虽 然 学 习 能 力 不 可 能 超过 学 习 容 量 ， 但 是 可 以 通过 改变 车 辆 
或 网 络 形状 来 增加 容量 。 


如 果 有 10 000 个 隐藏 层 节 点 ， 会 发 生 什 么 情况 呢 ? 虽然 我 们 不 会 缺少 
学 习 容 量 ， 但 是 由 于 目前 有 太 多 的 路 径 供 学 习 选 择 ， 因 此 可 能 难以 训练 网 
络 。 这 也 许 需要 使 用 10 000 个 世代 来 训练 这 样 的 网 络 。 


让 我 们 进行 一 些 实验 ， 看 看 会 友 生 什么 情况 。 


性 能 与 隐藏 层 节点 
3 层 神 经 网 络 与 MNIST 数 据 集 


0 100 200 300 400 500 600 
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请 记 住 ， 迄 今 为 止 ， 程 序 运行 的 是 100 个 隐藏 层 节 点 。 只 用 10 个 隐藏 层 
节点 ， 网 络 就 得 到 了 0.8998 的 准确 性 ， 这 同样 让 人 侧目 。 只 使 用 我 们 曾经 
用 过 的 节点 数 上 日 的 V10， 网 络 的 性 能 束 跳 到 90%。 只 使 用 如 此 少 的 隐藏 层 
节点 或 学 习 场 所 ， 神 经 网 络 束 能 够 得 到 如 此 好 的 结果 。 这 也 证 明了 神经 网 
络 的 力量 。 这 一 点 值得 我 们 赞 贫 。 


随 着 增加 隐藏 层 节点 的 数量 ， 结 果 有 所 改善 ， 但 是 不 显著 。 由 于 增加 
一 个 隐藏 层 节点 意味 着 增加 了 到 前 后 层 的 每 个 节点 的 新 网 络 链接 ， 这 一 切 
都 会 产生 额外 较 多 的 计算 ， 因 此 训练 网 络 所 用 的 时 间 也 显著 增加 了 ! 因 
此 ， 必 须 在 可 容忍 的 运行 时 间 内 选择 某 个 数目 的 隐藏 层 节点 。 


对 于 我 的 计算 机 而 言 ， 这 个 数字 是 200 个 节点 。 你 的 计算 机 可 能 会 相对 
较 快 或 相对 较 慢 。 


我 们 还 创造 了 准确 度 的 新 纪录 ， 使 用 200 个 节点 ， 得 分 0.9751。 使 用 
500 个 节点 ， 运 行 较 长 的 时 间 ， 我 们 的 神经 网 络 得 到 了 0.9762 分 。 相 比 于 
Yann LeCun 的 网 站 上 列 出 的 基准 ， 这 是 相当 不 错 的 成 绩 了 。 


回 过 头 去 ， 看 看 以 前 的 图 ， 可 以 发 现 ， 通 过 改变 网 络 形状 ， 先 前 约 
95% 的 准确 度 这 个 “ 冥 顽 不 灵 ” 的 极限 已 经 被 打破 了 。 
2.5.7 大功告成 

回顾 这 项 工作 ， 我 们 只 用 先前 介绍 的 简单 概念 以 及 简单 的 python 代 
码 ， 创 建 了 一 个 神经 网 络 。 

没有 任何 多 余 花 哨 、 神 奇 的 数学 ， 神 经 网 络 就 已 经 表现 得 如 此 出 众 ， 
相 比 于 学 者 和 研究 人 员 所 编写 的 神经 网 络 ， 这 个 神经 网 络 的 表现 也 是 可 轩 
可 点 。 

本 书 的 第 3 意 内 容 更 有 趣 ， 即 使 你 还 未 探讨 过 这 些 想法 ， 请 不 要 犹 驳 ， 


使 用 已 经 写 出 的 神经 网 络 ， 进 一 步 去 实验 ， 尝 试 不 同 数量 的 隐藏 层 节点 或 
不 同 的 调整 比例 ， 其 至 使 用 不 同 的 激活 函数 ， 看 看 会 发 生 什么 情况 。 


2.5.8 FRAS 


为 了 防止 不 能 访问 GitHub 上 的 代码 ， 同 时 出 于 方便 参考 的 原因 ， 我 们 
把 代 但 副本 在 此 列 出 ， 下 面 定 最 终 代 但 。 





# python notebook for Make Your Own Neural Network 
# code for a 3-layer neural network, and code for learning the MNIST 


dataset 
# (c) Tariq Rashid, 2016 


# license is GPLV2 
import numpy 


# scipy.special for the sigmoid function expit() 
import scipy.special 


# library for plotting arrays 
import matplotlib.pyplot 


# ensure the plots are inside this notebook, not an external window 
%matplotlib inline 


# neural network class definition 


class neuralNetwork : 


# initialise the neural network 
def init__(self, inputnodes, hiddennodes, outputnodes, 


learningrate) 


# set number of nodes in each input, hidden, output layer 
self.inodes = inputnodes 
self.hnodes = hiddennodes 
self.onodes = outputnodes 


# link weight matrices, wih and who 

# weights inside the arrays are w 1 ], where link is from 
node 1 to node j in the next layer 

# wil w21 

# w12 w22 etc 

self.wih = numpy.random.normal(0.0, pow(self.hnodes, -0.5), 
(self.hnodes, self.inodes) ) 

self.who = numpy.random.normal(0.0, pow(self.onodes, -0.5), 
(self.onodes, self.hnodes) ) 


# learning rate 
self.lr = learningrate 


# activation function is the sigmoid function 
self.activation_function = lambda x: scipy.special.expit(x) 


pass 


# train the neural network 
def train(self, inputs_list, targets_list) 


# convert inputs list to 2d array 
inputs = numpy.array(inputs_list, ndmin=2).T 
targets = numpy.array(targets_list, ndmin=2).T 


# calculate signals into hidden layer 

hidden_inputs = numpy.dot(self.wih, inputs) 

# calculate the signals emerging from hidden layer 
hidden_outputs = self.activation_function(hidden_inputs ) 


# calculate signals into final output layer 

final_inputs = numpy.dot(self.who, hidden_outputs) 

# calculate the signals emerging from final output layer 
final_outputs = self.activation_function(final_inputs) 


# output layer error is the (target - actual) 

output_errors = targets - final_outputs 

# hidden layer error is the output_errors, split by weights, 
recombined at hidden nodes 

hidden_errors = numpy.dot(self.who.T, output_errors) 


# update the weights for the links between the hidden and 
output layers 

self.who += self.lr * numpy.dot((output_errors * 
final_outputs * (1.0 - final_outputs)), 
numpy.transpose(hidden_outputs ) ) 


# update the weights for the links between the input and 
hidden layers 

self.wih += self.lr * numpy.dot((hidden_errors * 
hidden_outputs * (1.0 - hidden_outputs)), numpy.transpose(inputs) ) 

pass 


# query the neural network 
def query(self, inputs_list) 


# convert inputs list to 2d array 
inputs = numpy.array(inputs_list, ndmin=2).T 


# calculate signals into hidden layer 


hidden_inputs = numpy.dot(self.wih, inputs) 
# calculate the signals emerging from hidden layer 
hidden_outputs = self.activation_function(hidden_inputs ) 


# calculate signals into final output layer 

final_inputs = numpy.dot(self.who, hidden_outputs) 

# calculate the signals emerging from final output layer 
final_outputs = self.activation_function(final_inputs) 
return final_outputs 


# number of input, hidden and output nodes 
input_nodes = 784 


hidden_nodes = 200 


output_nodes = 10 


# learning rate 
learning_rate = 0.1 


# create instance of neural network 
n = neuralNetwork(input_nodes, hidden_nodes, output_nodes, 
learning_rate) 


# load the mnist training data CSV file into a list 


training _data_file = open("mnist_dataset/mnist_train.csv", 'r') 
training_data_list = training_data_file.readlines() 
training_data_file.close() 


# train the neural network 


# epochs is the number of times the training data set is used for 
training 
epochs = 5 


for e in range(epochs): 


# go through all records in the training data set 
for record in training_data_list: 
# split the record by the ',' commas 
all_ values = record.split(',') 
# scale and shift the inputs 
inputs = (numpy.asfarray(all_values[1:]) / 255.0 * 0.99) + 
0.01 
# create the target output values (all 0.01, except the 
desired label which is 0.99) 
targets = numpy.zeros(output_nodes) + 0.01 
# all_values[0] is the target label for this record 
targets[int(all_values[0])] = 0.99 
n.train(inputs, targets) 
pass 
pass 


# load the mnist test data CSV file into a list 


test_data_file = open("mnist_dataset/mnist_test.csv", 'r') 
test_data_list = test_data_file.readlines() 
test_data_file.close() 


# test the neural network 


# scorecard for how well the network performs, initially empty 
scorecard = | 


# go through all the records in the test data set 
for record in test_data_list: 
# split the record by the ',' commas 
all values = record.split(',') 
# correct answer is first value 
correct_label = int(all_values[0] ) 
# scale and shift the inputs 
inputs = (numpy.asfarray(all_values[1:]) / 255.0 * 0.99) + 0.01 
# query the network 
outputs = n.query(inputs) 
# the index of the highest value corresponds to the label 
label = numpy.argmax(outputs) 
# append correct or incorrect to list 
if (label == correct_label): 
# network's answer matches correct answer, add 1 to 
scorecard 
scorecard.append(1) 
else: 
# network's answer doesn't match correct answer, add 0 to 
scorecard 


scorecard.append(0) 
pass 


pass 


# calculate the performance score, the fraction of correct answers 


scorecard_array = numpy.asarray(scorecard) 
print ("performance = ", scorecard_array.sum() / 
scorecard_array.size) 





第 3 章 RAZA 


“HATER. ” 


在 本 章 中 ， 我 们 将 进一步 探讨 一 些 非常 有 趣 的 想法 。 如 果 只 是 想 了 解 
神经 网 络 的 基本 知识 ， 那 不 必 阅 读本 章 ， 读 者 并 非 必须 了 解 这 里 的 一 切 内 
容 。 


这 古 一 个 有 趣 的 入 _ 外 部 分 ， 所 以 市 矢 会 和 微 加 快 一 些 ， 但 是 我 们 仍然 
笠 试 使 用 人 简 蛙 的 语言 来 解释 这 些 想法 。 


31 自己 的 手写 数字 


在 整 本 书 中 ， 我 们 一 直 使 用 来 自 MNIST 数 据 集 的 数字 图 片 。 为 什么 不 
使 用 自己 的 笔迹 呢 ? 


在 这 个 实验 中 ， 我 们 将 使 用 自己 的 笔迹 创建 测试 数据 集 。 我 们 也 将 尝 
rei 了 同 的 书写 风格 ， 使 用 嘲 杂 或 抖动 的 图 片 ， 来 观察 神经 网 络 的 应 对 
能 力 如 何 。 


你 可 以 使 用 任何 喜欢 的 图 像 编辑 或 绘画 软件 来 创建 图 片 。 不 必 使 用 时 
贯 的 Photoshop，GIMP 是 免费 开源 的 符 代 软件 ， 适 用 于 Windows、Mac 和 
Linux 等 系统 。 甚 至 可 以 用 一 文笔 将 数字 与 在 纸 上 ， 并 用 智能 手机 、 相 机 或 
任何 合适 的 扫 换 仪 ， 将 手写 数字 变 成 图 片 格式 。 唯 一 的 要 求 是 图 片 为 正方 
形 〈 宽 度 等 于 长 度 ) ， 并 且 将 其 你 存 为 PNG 格 式 。 在 豆 欢 的 图 像 编 辑 器 
中 ， 保 存 格式 选项 的 菜单 通常 为 “File > Save As” 或 “File = Export”. 


下 和 面 是 我 制作 的 一 些 图 片 。 









































数字 5 残 是 我 的 笔迹 。 数 字 4 是 用 粉笔 而 不 是 马 死 笔 与 的 。 数 字 3 征 我 的 
笔迹 并 有 和 意 切 成 一 段 一 段 的 。 数 字 2 是 传统 的 报纸 或 书籍 字体 ， 但 是 进行 了 
模糊 处 理 。 数 字 6 有 童 做 成 拌 动 的 样子 ， 好 像 古 在 水 中 的 倒影 。 最 后 一 张 图 
片 与 前 面 的 数字 相同 ， 但 是 讨 加 了 噪声 ， 来 看 看 我 们 是 否 可 以 增加 神经 网 
络 的 工作 难度 。 


RAXNA RW, BERKEM IRN. AKKA ES 


Ja, FRE AKA Bets Fa Bl RU AE, PEKARE Th NA, Fil 
28 DEE AT AT Se BUEN AU aS 1 TE J LR EME, aed, WRAP 
链接 权重 遭受 了 一 定 损害 ， 神 经 网 络 也 可 以 表现 得 相当 好 。 这 同时 意味 

看 ， 如 来 输入 图 像 被 损坏 或 不 完整 ， 神 经 网 络 也 可 以 表现 得 相当 好 。 这 十 
Pig oo 这 恕 是 我 们 硕 户 用 上 图 中 断断续续 的 3 进行 测试 的 能 


我 们 需要 创建 较 小 的 PNG 图 片 ， 将 它们 调整 到 28 个 像素 乘 以 28 个 像 
素 ， 这 样 就 可 以 匹配 曾经 用 过 的 来 自 MNIST 数 据 集 的 图 片 。 你 可 以 使 用 图 
像 编辑 器 做 到 这 一 点 。 


Python 库 再 次 帮助 了 我 们 ， 它 从 香 见 的 图 像 文件 格式 中 《包括 PNG 格 
Th) 读 取 和 解 但 数据 。 看 看 下 面 这 段 简单 的 代 但 : 


import scipy.misc 


img_array = scipy . misc . imread 
( image_file_name 
, flatten = True 


) 


img_data = 255.0 - img_array . reshape( 784 ) 
img_data = (img_data / 255.0 * 0.99 ) + 0.01 





scipy.misc.imread() 函 数 帮助 我 们 从 图 像 文 件 ， 如 PNG 或 JPG 文 件 中 ， 
读 取 数据 。 必 须 导入 scipy.misc 库 来 使 用 这 个 函数 。 参 数 “flatten=True” 将 图 
(RAS ACTA LE BA, DURA BE EN, ASA IEEE FPN 
rig 22 HY AK PE 


下 一 行 代码 重 塑 数组 ， 将 其 从 28x28 的 方块 数组 变 成 很 长 的 一 串 数 
值 ， 这 是 我 们 需要 饶 送 给 神经 网 络 的 数据 。 此 前 ， 我 们 已 经 多 次 进行 这 样 
的 操作 了 。 但 是 ， 这 里 比较 新 鲜 的 一 点 是 将 数组 的 值 减 去 了 255.0。 这 样 做 
的 原因 是 ， 常 规 而 言 ，0 指 的 是 黑色 ，255 指 的 是 和 白色， 但 是 ，MNIST 数 据 
集 使 用 相反 的 方式 表示 ， 因 此 不 得 不 将 值 逆 转 过 来 以 匹配 MNIST 数 据 。 


最 后 一 行 代码 是 我 们 很 熟悉 的 ， 它 将 数据 值 进行 缩放 ， 使 得 它们 的 范 
转变 成 0.01 到 1.0。 演 示 读 取 PNG 文 件 的 示例 代码 可 以 在 GitHub 上 找到 : 


e https://github.com/makeyourownneuralnetwork/makeyourownneuralnetworl 
blob/master/part3_load_own_images.ipynb 


我 们 需要 创建 基本 的 神经 网 络 ， 这 个 神经 网 络 使 用 MNIST 训 练 数据 集 
进行 训练 ， 然 后 ， 不 使 用 MNIST 测 试 集 对 网 络 进行 测试 ， 而 是 使 用 目 己 创 
建 的 网 像 数 据 对 网 络 进行 测试 。 

在 GitHub 上 ， 可 通过 如 下 链接 获得 新 程序 : 


e https://github.com/makeyourownneuralnetwork/makeyourownneuralnetworl 
blob/master/part3_neural_network_mnist_and_own_data.ipynb 


这 样 做 成 功 了 吗 ? SAMS. FAVA One EBRA 
询 的 结果 。 
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可 以 看 到 ， 神 经 网 络 能 够 识别 我 们 创建 的 所 有 图 像 ， 包 括 有 意 损 坏 的 
数字 “3”。 只 有 在 识别 添加 了 噪声 的 数字 “6” 时 失败 了 。 


使 用 你 目 己 的 图 像 ， 尤 其 是 手写 的 图 像 试 试看 ， 证 明 你 的 神经 网 络 确 
实 能 够 工作 。 


并 且 ， 仔 细 观 察 ， 要 将 图 像 损 坏 或 变形 到 什么 程度 ， 神 经 网 络 才 会 失 
败 。 和 神经 网 络 的 弹性 将 会 给 你 留 下 深刻 的 印象 。 


3.2 ”神经 网 络 大 脑 内 部 


在 求解 各 种 各 样 我 们 不 知 谍 如何 使 用 简约 明快 的 规则 解决 的 问题 时 ， 
神经 网 络 肥 挥 了 重要 作用 。 想 象 一 下 ， 与 下 一 组 规则 ， 将 这 些 规则 应 用 于 
手写 数字 图 像 ， 来 确定 数字 是 什么 ， 这 件 事 并 不 是 那么 容易 ， 并 且 我 们 的 
壬 试 也 可 能 不 会 那么 成 功 。 


3.2.1 神秘 的 黑 盒 


一 旦 神经 网 络 得 到 了 训练 ， 并 且 在 测试 数据 上 表现 民 好 ， 那 么 基本 上 
你 束 拥 有 了 一 个 神秘 的 黑 盒 子 。 你 不 知道 这 个 黑 盒 子 如 何 计算 出 党 采 ， 但 
是 它 确 实 成 功 地 计算 出 了 答案 。 


如 末 你 只 对 答案 感 兴趣 ， 而 不 真正 关心 它们 如 何 得 出 这 个 答 守 的 ， 那 
么 对 你 来 说 ， 这 束 不 是 一 个 问题 了 。 但 是 ， 我 要 指出 这 是 这 些 机 禹 学 习 方 
TARA AG, BUPA a CHEER) 已 经 学 会 如 何 求解 问题 ， 但 是 
其 所 等 习 a 到 的 知识 第 党 不 能 转化 为 对 问题 的 理解 和 乔 芒 。 


让 我 们 来 看 看 是 任 可 以 到 神经 网 络 内 部 一 探 宛 葛 ， 是 人 耕 能 够 理解 神经 
网 络 所 学 习 到 的 知识 ， 将 神经 网 络 通过 训练 搜集 到 的 知识 可 视 化 。 


我 们 可 以 观察 权重 ， 这 毕竟 是 神经 网 络 学 习 的 内 容 。 但 是 ， 权 重 不 太 
可 能 告诉 我 们 太 多 信息 。 特 别 是 ， 神 经 网 络 的 工作 方式 是 将 学 习 分 布 到 不 
同 的 链接 权重 中 。 这 种 方式 使 得 神经 网 络 对 损坏 具有 了 弹性 ， 这 残 像 是 生 
物 大 脑 的 运行 方式 。 删 除 一 个 节点 甚至 相当 多 的 方 点 ， 都 不 太 可 能 彻 抵 破 
坏 神经 网 络 民 好 的 工作 能 


这 里 有 一 个 狼 狂 的 想法 。 


3.2.2 [nea 


Thi tau D RITER CSS UR AAA, HZ Po 2% 
简 出 一 个 答案 。 在 我 们 的 例子 中 ， 这 个 问题 证人 类 的 手 与 数字 图 像 。 答 条 
是 表示 数字 0 到 9 中 的 茶 个 标签 。 


如 有 末 将 这 种 方式 反 转 ， 回 后 操作 ， 会 发 生 什 么 昵 ? 如 果 人 馈送 一 个 标签 
到 输出 节点 ， 通 过 已 受训 练 的 网 络 反 加 输入 信号 ， 直 到 输入 节点 弹出 一 个 
图 像 ， 那 会 怎么 样 ? 下 图 显示 了 正常 的 正 同 查询 和 着 狂 的 反问 同 后 查询 的 


ne 
| BR 一 一 
反 向 向 后 查询 


| 图 像 | 捷 一 一 


我 们 已 经 知道 如 何 通 过 网 络 传播 信 写 ， 使 用 链接 权重 调节 信和 号， 在 应 
用 激活 图 数 之 前 在 节点 处 重新 组 合 信号 。 除 了 使 用 的 是 逆 激 活 图 数 以 外 ， 
所 有 这 一 切 操 作 也 都 适用 于 反 同 传播 信号。 如 果 y=f(x ) 是 正 回 激活 图 数 ， 
era a a a oe (EH TR FE TRB, SR He eR EE, 1H, 
诈 非 难事 : 


IEA IE E AH 
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vy v 
神经 网 络 
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y v 
神经 网 络 






< 一 -一 标签 


y=1/(1+e%) 
1+ex=1/y 
全 (US 
-x=In[(-y)/y] 
=InlLy/(-y)] 


te AT AT eR A, LA Python Ai BES R Be He Ht 
scipy.special.expitO 一 样 ，Python 中 的 scipyspecial 库 也 提供 了 这 个 图 数 ， 即 
scipy.special.logit(). 


在 应 用 逆 激 活 函 数 logit0 之 前 ， 我 们 需要 确保 信和 号 是 有 效 的 。 这 十 什么 


意思 HE? 还 记得 吧 ， 泌 辑 S$ 图 数 接受 了 任何 数值 ， 输 出 0 和 1 之 间 的 茶 个 
A 但 是 不 包括 0 和 1 本 有 身 。 逆 函数 必须 接受 相同 的 范围 0 和 1 之 间 的 茶 个 
值 ， 不 包括 0 和 1， 弹 出 任何 正 值 或 负 值 。 为 了 实现 这 一 目标 ， 我 们 简单 地 
接受 输出 层 中 的 所 有 值 ， 应 用 logit0， 并 将 它们 重新 调整 到 有 效 范围 。 我 选 
择 的 范围 为 0.01 至 0.99。 


这 段 代 码 在 网 上 始终 可 用 ， 请 访问 GitHub 以 获取 : 


e https://github.com/makeyourownneuralnetwork/makeyourownneuralnetworl 
blob/master/part3_neural_network_mnist_backquery.ipynb 


3.2.3 ”标签 “0>” 


来 看 看 如 果 我 们 使 用 标签 “0 进行 反 回 得 询 ， 会 发 生 什 么 情况 。 也 惑 是 
说 ， BATT et tH Ws 卜 展 示 了 一 些 值 ， 除 了 使 用 值 0.99 展 示 给 第 一 个 节点 表 
示 标 签 “0”， 其 余 节 点 都 展示 了 0.01。 换 名 话说 ， 也 就 是 数组 [0.99, 0.01, 
0.01, 0.01, 0.01, 0.01, 0.01, 0.01, 0.01,0.01]. 


FEER SA AGREE EY SIR 





心 


这 真是 太 有 趣 了 了 ! 


这 个 图 像 让 我 们 对 神经 网 络 的 “大 脑 * 有 了 一 种 深刻 的 见解 。 这 个 图 像 
是 什么 意思 ? 该 如 何 解 释 这 个 图 像 呢 ? 


我 们 注意 a 到 最 主要 的 特征 是 ， 图 像 中 的 圆 形 。 我 们 是 在 询问 神经 网 络 
一 一 对 于 丛 采 “0”， 最 理想 的 问题 是 什么 ， 因 此 ， 这 个 图 像 是 有 过 理 的 。 


我 们 也 注意 到 深 色 、 浅 色 和 一 些 介 中 的 灰色 区 域 。 


深 色 区 域 是 问题 图 像 中 应 该 使 用 笔 来 标记 的 部 分 ，1 这 部 分 图 像 组 成 了 
文 持 证 据 ， 证 明 管 案 为 “0”， 可 以 这 样 理解 ， 这 些 部 分 看 起 来 组 成 了 0 
的 形状 轮廓 。 
0 浅 色 区 域 是 问题 网 像 中 应 该 没有 任何 笔 痕 的 部 分 ， 这 文 持 了 答 

为 “0”。 同 样 ， 可 以 这 样 理解 这 些 部 分 形成 了 0 东 状 的 中 加 部 分 ， 
© 大 体 上 ， 神 经 网 络 对 灰色 区 域 不 是 很 敏感 。 


因此， 粗略 来 讲 ， 我 们 实际 上 已经 理解 了 ， 人 针对 如 何 将 图 像 归 类 为 标 
窒 “0”?， 神 经 网 络 已 经 学 习 到 的 知识 。 


这 是 一 种 难得 的 见解 ， 对 于 较 多 层 、 较 复杂 的 神经 网 络 或 较 复杂 的 问 


题 而 言 ， 可 能 没有 如 此 容易 解释 的 结 末 。 我 们 勤 励 你 进行 实验 ， 杀 目 动 手 


试 一 试 。 


3.2.4 ÆSKA 


下 图 显示 了 其 他 数学 同 后 合 询 的 结 
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脑 一 样 。 


天 于 这 些 图 像 ， 我 们 做 了 一 些 注 解 : 


“7” 真 的 很 清楚 。 可 以 看 到 在 查询 图 像 中 标记 的 深 色 位 置 ， 强 烈 上 暗示 了 
这 是 标签 “7”。 也 可 以 看 到 额外 的 “白色 ”区 域 ， 这 些 区 域 没 有 任何 标 
记 。 这 两 个 特点 结合 起 来 ， 指 示 出 了 这 是 “7”。 

这 同样 适用 于 数字 “3”， 有 标记 的 深 色 区 域 指 示 出 了 “3”， 白 色 的 区 域 
也 非常 清晰 。 

“2? 和 “5” 具有 类 似 的 清晰 虐 。 

+i 这 个 形状 出 现在 4 个 象限 中 ， 是 4 个 互相 分 隔 的 区 
“8” 主 要 是 由 “雪人 ”构成 的 ， 这 个 “雪人 ”由 白色 区 域 形 成 ， 表 明 8 的 特 
征 在 于 保持 了 “ 头 部 身体 ”区 的 标记 。 

数字 “1” 令 人 相当 费解 。 这 看 起 来 好 像 神经 网 络 较 多 关注 无 需 标 记 的 区 


人 
J 知识 。 

数字 “9” 一 点 部 不 消 楚 。 它 有 一 个 明确 的 深 色 区 域 ， 还 有 一 些 形状 相对 
精细 的 日 色 区 域 。 这 束 是 神经 网 络 所 学习 到 的 知识 ， 忆 体 来 说 ， 当 与 
网 络 学 会 的 其 他 数字 结合 时 ， 这 允许 神经 网 络 的 表现 达到 了 97.5% 的 
众 确 度 。 我 们 观察 一 下 这 个 图 片 ， 并 得 出 结论 ， 有 更 多 的 培训 样本 将 
有 助 于 神经 网 络 学 到 更 清晰 的 “9 的 模板 。 


现在 ， 你 对 神经 网 络 大 脑 的 工作 方式 应 设 有 J 了 一 个 深刻 的 了 解 了 吧 。 


3.3 ”创建 新 的 训练 数据 : 旋转 图 像 


如 朵 思考 一 下 MNIST 训 练 数据 ， 你 束 会 意识 到 ， 这 是 天 于 人 们 所 书写 
数字 的 一 个 相当 丰富 的 样本 集 。 这 里 有 各 种 各 样 、 各 种 风格 的 书写 ， 有 的 
SARE, AWS ARTE 


神经 网 络 必须 尽 可 能 多 地 学 习 这 些 变化 类 型 。 在 这 里 ， 有 多 种 形式 的 
数字 “4”， 有 些 被 压 扁 了 ， 有 些 比较 宽 ， 有 些 进行 了 旋转 ， 有 些 顶 部 是 开放 
的 ， 有 些 顶 部 是 闭合 的 ， 这 对 神经 网 络 的 学 习 都 是 有 帮助 的 。 


如 条 我 们 能 够 创造 更 多 的 变化 类 型 作为 样本 ， 会 不 会 有 用 处 呢 ? 如 何 
做 到 这 一 点 呢 ? 骨 多 收集 几 千 个 人 类 手写 数字 样本 ， 对 我 们 来 说 有 扣 不 太 
容易 。 我 们 可 以 这 样 做 ， 但 是 工作 量 有 点 大 。 


一 个 很 酷 的 想法 束 是 利用 已 有 的 样本 ， 通 过 顺 时 针 或 逆 时 针 旋 转 它 
们 ， 比 如 说 旋转 10 度 ， 创 建新 的 样本 。 对 于 每 一 个 训练 样本 而 言 ， 我 们 能 
够 生成 两 个 额外 的 样本 。 我 们 可 以 使 用 不 同 的 旋转 角度 创建 更 多 的 样本 ， 
ra eer eet Seer 
JT] 。 


同样 ，Python 的 许多 扩展 包 和 程序 库 都 很 有 用 。 
ndimage.interpolation.rotate() 可 以 将 数组 转 过 一 个 给 定 的 角度 ， 这 正 是 我 们 
所 需要 的 。 请 记 住 ， 由 于 我 们 将 神经 网 络 设计 成 为 接收 一 长 串 输入 信和 号， 
因此 输入 的 是 784 长 的 一 串 一 维 数字 。 我 们 需要 将 这 一 长 串 数 字 重 新 杰 成 
28x28 的 数组 ， 这 样 就 可 以 旋转 这 个 数组 ， 然 后 在 将 这 个 数组 馈送 到 和 神经 
网 络 之 前 ， 将 数组 解 开 ， 重 新 变 成 一 长 串 的 784 个 信和 号。 


假设 得 到 了 先前 的 scaled_input 数 组 ， 下 列 代 码 演 示 了 如 何 使 用 
ndimage. interpolation.rotate() Al 2X: 





# create rotated variations 


# rotated anticlockwise by 10 degrees 
inputs_plus10_img = 
SCipy.ndimage.interpolation.rotate( scaled_input.reshape(28, 28) 


, 10 


cval=0.01 


, reshape=False) 

# rotated clockwise by 10 degrees 

inputs_minusi0_img = 

SCipy.ndimage.interpolation.rotate( scaled_input.reshape(28, 28) 


-10 


cval=0.01 


, reshape=False) 





可 以 看 到 ， 原 先 的 Scaled_input 数 组 和 被 重新 转变 为 28 滋 以 28 的 数组 ， 然 
后 进行 了 调整 。reshape=False， 这 个 参数 防止 程序 库 过 分 “热心 ”， 将 疼 像 
压 局 ， 使 得 数组 旋转 后 可 以 完全 适合 ， 而 没有 剪 反 任何 部 分 。 在 原始 图 像 
中 ， 一 些 数组 元 系 不 存在， 但 是 现在 这 些 数 组 元 系 进 入 了 了 视野，cval 束 是 
用 来 填充 数组 元 兹 的 值 。 由 于 我 们 要 移动 输入 值 范 围 ， 避 免 0 作 为 神经 网 络 
的 输入 值 ， 因 此 不 使 用 0.0 作 为 歌 认 什 ， 而 是 使 用 0.01 作 为 默认 值 。 


小 型 MNIST 训 练 集 的 记录 6 (第 7 条 记录 ) 是 一 个 手写 数字 “1”。 在 下 图 
中 可 以 看 到 ， 原 先 的 数字 图 片 和 使 用 代码 生成 的 两 个 额外 的 变化 形式 。 


| IA 
原始 图 像 旋转 +10 度 旋转 -10 度 
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AY DAR ÆA BIR PH TT CUE eh. Ja RAAF +10RE, fest 
本 一 个 样本 ， 束 像 祭 些 人 的 书写 风格 是 将 1 同 后 倾斜 。 将 原来 图 记 的 版 本 顺 
时 针 旋 转 10 度 更 有 趣 。 和 原始 的 版 本 相 比 ， 这 个 版 本 在 人 条 种 意义 上 古 更 具 
代表 性 的 学 习 图 上 三。 


让 我 们 创建 新 的 Python Notebook， 使 用 原来 的 神经 网 络 代码 ， 不 过 ， 
现在 我 们 将 原始 图 片 绷 顺 时 针 和 逆 时 针 两 个 方 回 旋转 10 上 度 ， 作 为 额外 的 训 
练 样本 ， 来 训练 神经 网 络 。 这 上 段 代 码 在 GitHub 上 可 以 得 到 ， 请 访问 以 下 链 


Pa: 


e https://github.com/makeyourownneuralnetwork/makeyourownneuralnetworl 
blob/master/part2_neural_network_mnist_data_with_rotations.ipynb 


设 定 学 习 率 为 0.1， 并 且 只 使 用 一 个 训练 世代 ， 和 初始 运行 神经 网 络 ， 所 
得 的 性 能 是 0.9669。 这 对 于 没有 使 用 籁 外 旋转 图 像 进 行 训练 的 神经 网 络 的 
性 能 0.954 而 言 ， 是 一 个 长 足 的 进步 。 这 样 的 表现 ， 和 列 在 Yann LeCeun 网 
站 中 的 记录 相 比 也 已 经 是 名 列 前 茅 了 。 


让 我 们 进行 一 系列 的 实验 ， 改 变 世 代 的 数目 看 看 是 个 能 够 让 已 经 不 错 
的 表现 更 上 一 层 楼 。 现 在 ， 我 们 创建 了 更 多 的 训练 数据 ， 可 以 及 用 更 小 、 
Se ee ae Sane ner omens E E E 
时 间 。 


请 记 住 ， 由 于 特定 的 神经 网 络 架构 或 训练 数据 的 完整 性 ， 事 情 很 可 能 
存在 内 在 的 限制 ， 因 此 我 们 不 会 期 每 得 到 98% 或 以 上 的 准确 度 ， 或 者 甚至 
是 100% 的 准确 度 。 我 们 说 “特定 的 神经 网 络 架 构 ”"， EEE TERE JR AA 
目的 选择 、 隐 茂 层 的 选择 和 诅 活 函数 的 选择 等 。 


我 们 旋转 训练 图 像 的 角度 ， 将 其 作为 额外 的 训练 样本 ， 下 图 显示 了 在 
这 种 情况 下 的 神经 网 络 的 性 能 。 同 时 ， 下 图 也 显示 了 没有 使 用 额外 庶 转 的 
训练 样本 时 神经 网 络 的 性 有 能， 以便 进 行 简单 的 比较 。 


性 能 与 世代 
3 层 神 经 网 络 与 MNIST 数 据 集 





使 用 旋转 at/a- 角 度 (BE) 的 额外 图 像 


可 以 看 到 ， 在 5 个 世代 的 情况 下 ， 最 好 的 结果 是 0.9745 或 97.5% 的 准确 


度 。 这 再 一 次 打 彼 了 我 们 先前 的 纪录 。 


值得 注意 的 是 ， 如 末 旋 转 的 角度 过 大 ， 神 经 网 络 的 性 能 会 出 现下 降 。 
由 于 旋转 较 大 的 角度 意味 看 创建 了 实际 上 不 能 代表 数字 的 图 像 ， 因 此 神经 
网 络 的 性 能 出 现 了 下 降 ， 这 是 可 以 理解 的 。 想 象 一 下 ， 将 “3” 同 一 个 方 同族 
转 90 度 ， 这 恕 不 再 征 3 了 。 因 此 ， 将 过 度 旋转 的 图 像 涩 加 到 训练 样本 中 ， 增 
加 了 错误 样本 ， 降 低 了 训练 的 质量 。 对 于 最 大 化 附加 数据 的 价值 ，10 度 看 
起 来 是 最 佳 角度 。 


在 10 个 世代 的 情况 下 ， 神 经 网 络 的 性 能 出 现 了 峰值 ， 打 破 了 记录 ， 达 
到 了 0.9787， 几 乎 到 达 98%! 对 于 这 种 简单 的 神经 网 络 而 言 ， 这 是 一 个 尺 
人 的 结果 ， 也 是 最 佳 的 一 种 状态 。 请 记 住 ， 有 些 人 会 对 神经 网 络 或 数据 进 
行 一 些 巧 妙 的 处 理 ， 我 们 还 未 这 样 做 ， 我 们 只 是 保持 简单 的 神经 网 络 ， 但 
是 却 依然 取得 了 令 人 骄傲 的 结果 。 





做 得 好 ! 


3.4 结语 


人 在 本 书 中 ， 我 布 望 你 已 经 明日 ， 人 类 能 够 轻 而 匈 举 解 决 的 一 些 问 题 ， 
A Re 
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神经 网 络 便 图 像 识 别 以 及 广泛 的 其 他 各 类 难题 ， 者 获得 了 空前 的 进 
步 。 求 解 这 类 难题 的 早期 动力 的 一 个 关键 性 部 分 古生物 大 脑 ， 如 人 饥 子 或 屁 
虫 的 大 脑 ， 昌 然 这 些 生 物 大 鹏 比 起 分 天 的 超级 计算 机 似乎 刹 单一 些 ， 肥 广 
也 较 慢 ， 但 是 它们 依然 能 够 执行 复杂 的 任务 ， 如 飞行 、 喂 食 、 建 设 家 四 。 
这 些 生 物 大 脑 对 损害 或 对 不 完美 的 信和 号， 也 非常 有 弹性 。 数 字 计 算 机 和 传 
统计 算 却 不 能 拥有 这 种 能 力 。 


今天 ， 在 人 工 镶 能 中 ， 神 经 网 络 是 一 些 神 奇 的 应 用 程序 成 功 的 关键 部 
分 。 人 们 对 神经 网 络 和 机 融和 学 习 ， 特 别 是 深度 学 习 一 一 也 惑 是 使 用 了 有 层 
次 结构 的 机 融和 学习 方 法 ， 依 然 充 靖 了 巨大 兴趣 。 在 2016 年 年 奶 ， 在 主 老 的 
围棋 对 奉 领 域 ， 谷 黑 的 DeepMind 击 败 了 地界 级 大 师 。 和 国际 象棋 相 比 ， 赎 
棋 需 要 更 深入 的 战略 ， 更 加 微妙， 研究 人 员 原 本 以 为 计算 机 需要 好 几 年 的 
时 间 才 能 下 得 好 围 模 。 因 此 ， 此 次 事件 成 为 了 人 工 镶 能 史上 一 个 巨 六 的 里 
程 碑 。 神 经 网 络 在 计算 机 的 成 功 中 友 挥 了 关键 作用 。 

我 布 望 你 已 经 明白 了 ， 神 经 网 络 背 后 的 核心 思想 其 实 是 非常 简单 的 。 
我 布 望 你 也 可 以 从 神经 网 络 的 实验 中 找到 乐趣 。 也 许 ， 你 已 经 有 了 探索 其 
他 类 型 的 机 费 学 习 和 人 工 知 能 的 兴趣 。 
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附录 A ”做 积分 简介 


“从 你 且 边 所 有 的 小 事情 中 ， 找 到 赤 感 。?” 


想象 一 下 ， 你 在 一 辆 汽车 内 ， 气 定神 闲 ， 以 30 贡 里 每 小 时 的 稳定 速度 
向 前 飞驰 。 再 试想 一 下 ， 你 踩 下 油门 踏板 。 如 果 你 一 直 踩 着 油门 踏板 ， 汽 
车 的 速度 会 增加 至 35、40、50 和 60 英 里 每 小 时 。 


汽车 的 速度 在 变化 。 


在 本 市 中 ， 我 们 将 探讨 关于 物体 变化 的 问题 ， 如 汽车 的 速度 ， 并 讨论 
在 数学 上 如 何 计算 出 这 种 变化 。 在 数学 上 ”? 这 十 什么 意思 呢 ? 我 们 的 意思 
是 理解 事物 如 何 相互 关联， 这 样 束 可 以 精确 地 计算 出 ， 如 果 一 个 事物 变化 
了 ， 会 叶 致 为 一 件 事物 如 何 变 化 。 就 像 汽 车 的 速度 随 看 手表 上 时 间 的 变化 
而 变化 。 叉 或 者 说 ， 农 作物 的 局 度 随 看 降水 量 的 变化 而 变化 。 还 或 者 说 ， 
在 施加 不 同 的 拉力 后 ， 人 金属 弹 姓 延长 的 变化 。 


这 束 是 数学 家 所 谓 的 微 积分 。 许 多 人 认为 微 积分 是 极其 困难 、 令 人 害 
怕 的 科目 ， 避 之 不 及 ， 因 此 ， 我 有 挟 犹 水 是 全 将 本 附录 称 为 做 积分 。 


在 本 附录 末尾 ， 你 会 及 现 ， 在 数学 上 ， 在 许多 有 用 的 场景 下 ， 以 精确 
的 方式 计算 出 事物 的 变化 并 不 是 那么 困难 ， 这 束 古 微 积分 的 本 质 。 


即使 你 可 能 已 经 在 学 校 里 学 习 了 做 积分 或 做 分 ， RIIE, 
解 微 积 分 的 来 源 ， 因 此 ， 这 也 值得 浏览 一 下 本 附录 的 内 容 。 这 些 开 创 性 的 
数学 家 使 用 的 思想 和 工具 ， 真 的 非 钊 有 用 ， 值 得 收入 宫 中 ， 当 你 在 未 来 斌 
图 求解 不 同类 型 的 问题 时 ， 这 也 是 大 有 神 益 的 。 


如 末 你 受 欢 有 欣 贤 历史 的 “斗争 ”事件 ， 可 以 欣 员 一 下 友 生 在 羔 布 尼 次 和 
牛顿 之 间 的 戏剧 般 的 事件 ， 他 们 两 个 人 部 声称 自己 让 和 完 友 明了 人 微 积 分 ! 
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Al 一 条 平 御 的 线 


首先 ， 让 我 们 从 一 个 非 党 简单 的 场景 开始 。 


想象 一 下 ， 汽 车 以 30 英 里 每 小 时 的 速度 匀速 。 不 快 也 不 慢 ， 束 是 
时 速 30 英 里 。 


下 表 中 有 显示 了 汽车 在 各 个 时 间 操 的 速度 ， 每 半分 钟 测量 一 次 。 





下 图 可 视 化 了 在 这 几 个 时 间 扣 的 速度 。 


速度 与 时 间 
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时 间 / 分 
可 以 看 到 ， 速 度 并 不 随时 间 而 改变 ， 因 此 这 是 一 条 水 平和 直线 。 这 条 下 
线 不 同上 倾斜 Oink)» th ANTE) FAR (减速)， 汽 车 束 保 持 在 30 瑞 里 每 
小 时 。 
速度 的 数学 表达 式 ， 我 们 称 之 为 s : 
$= 30 


现在 ， 如 果 有 人 询问 速度 如 何 随时 间 变 化 ， 我 们 会 次 速度 不 随时 间 变 
化 。 变 化 率 为 0。 换 名 话说 ， 速 度 不 取 雇 于 时 间 ， 相 关 性 为 0。 


我 们 刚刚 束 完 成 了 人 微 积 分 计算 ! 


做 积分 探讨 的 是 ， 建 并 天 系 以 表示 一 种 事物 如 何 随 看 其 他 事物 的 变化 
而 变化 。 此 处 ， 我 们 思考 的 是 速度 如 何 随时 间 变 化 而 变化 。 


我 们 有 一 个 数学 方式 来 表达 这 种 关系 。 
6 sp 
Ot 


这 些 丰 什么 符号 ? AY DUR MATS EN ELAN S REY, EE A 
何 变 化 ”或 “s 如 何 与 t 相 关 ”。 


因此 ， 这 个 表达 式 说 的 是 速度 不 随时 间 变 化 ， 这 是 数学 家 使 用 有 的 一 种 
简洁 的 方式 。 或 者 换 一 种 说 法 ， 随 着 时 间 的 推移 ， 速 度 不 受 影响 。 速 度 对 
a 


事实 上 ， 当 你 再 次 观察 速度 的 表达 式 s =30 时 ， 你 可 以 发 现 这 种 不 相关 
性 。 在 这 个 表示 式 中 ， 一 点 都 没 提 到 时 间 。 也 就 是 说 ， 在 这 个 表达 式 中 ， 
没有 隐藏 的 时 间 t 。 因 此 ， 我 们 不 需要 做 任何 复杂 的 微 积分 来 计算 出 6s / Ot 
二 0， 只 要 简单 地 观察 表达 式 就 可 以 得 出 这 个 结论 。 数 学 家 称 之 为 ' 观 闪 
法 ”。 


如 9s / 0t 的 表达 式 ， 解 释 了 变化 紊 ， 称 为 导数 。 束 我 们 的 目的 而 言 ， 我 
们 不 需要 知道 这 点 ， 然 而 你 可 能 会 在 其 他 地 方 遇 到 这 个 词 。 


现在 ， 如 果 我 们 踩 下 油门 ， 让 我 们 看 看 会 发 生 什么 。 这 真是 太 令 人 兴 
| 


A2 ”一 条 和 斜 线 


试想 一 下 ， 相 同 的 汽车 以 30 兢 里 每 小 时 的 速度 前 进 。 我 们 轻 轻 踩 下 油 
门 ， 车 子 加 速 。 我 们 一 直 踩 住 油 门 ， 观 察 仪 表盘 上 的 标 度 ， 每 30 秒 记录 一 
次 速度 。 

在 30 秒 后 ， 汽 车 以 35 瑞 里 每 小 时 的 速度 前 进 。 在 1 分 钟 后 ， 汽 车 以 40 责 
里 每 小 时 的 速度 前 进 。 在 90 秒 后 ， 汽 车 以 45 丈 里 每 小 时 的 速度 前 进 。 在 2 分 
a TR AEIA SI S505 EREN. FR ZED REA BE) 108 E BE 
时 。 


下 表 总 结 了 相同 的 信息 。 





让 我 们 再 次 将 其 可 视 化 。 


速 上 让 与 时 间 


速度 (英里 /小 时 ) 





0 0.5 ] Le 2 PA 3 
时 间 / 分 


你 可 以 看 到 ， 汽 车 的 速度 以 恒定 速率 从 30 英 里 每 小 时 一 路 攀升 到 60 英 
里 每 小 时 。 由 于 每 半分 的 速度 增 量 是 相同 的 ， 因 此 速度 随时 间 变 化 的 图 像 
是 一 条 直线 ， 可 以 看 到 这 一 速率 。 

什么 是 速度 的 表达 式 ? 在 时 间 0， 速 度 为 30。 在 此 之 后 ， 速 度 每 分 钟 增 
加 10 英 里 每 小 时 。 因 此 ， 速 度 的 表示 式 如 下 所 示 。 

speed = 30 + (10 * time) 
或 者 使 用 符号 表示 如 下 : 
s= 30+ 10t 


在 这 里 ， 可 以 看 到 常数 30。 而 且 还 可 以 看 到 (10xt) ， 这 意味 着 每 分 
钟 增 加 10 英 里 每 小 时 。 你 很 快 就 会 意识 到 ，10 是 我 们 所 绘制 直线 的 斜率 。 
请 记 住 ， 直 线 的 一 般 形 式 为 y = ax +b， 其 中 a 是 斜率 或 梯度 。 


那么 ， 速 度 随时 间 变 化 的 表达 式 是 什么 样 的 呢 ? 咽 ， 我 们 已 经 讨论 到 
这 个 问题 了， 速度 每 分 钟 增加 10 瑞 里 每 小 时 。 


= 
ot 


的 是 ， 由 于 0s / 6t 不 为 0， 速 度 和 时 间 之 间 的 确 存在 着 相 


请 记 住 ， 直 线 y = ax +b 的 斜率 是 a， 我 们 通过 “观察 法 ”， 可 以 知道 s = 
30 +10t 的 斜率 为 10。 


做 得 好 ! 我 们 已 经 讨论 了 微 积 分 的 许多 基础 知识 ， 这 些 知 识 一 点 也 不 
难 。 现 在 ， 让 我 们 加 大 油门 ! 


A.3 ”一 条 曲线 


想象 一 下 ， 我 从 静止 起 动 了 汽车 ， 用 力 踩 下 油门 ， 不 松 开 油门 。 由 于 
我 们 一 开始 没有 移动 ， 因 此 起 动 速 度 为 0。 


试想 一 下 ， 我 们 非常 用 力 地 踩 下 油门 ， 汽 车 不 以 恒定 的 速率 增加 速 
上 度 。 相 反 ， 汽 车 更 快 地 提高 速度 。 这 意味 着 ， 它 每 分 钟 不 是 提高 10 英 里 每 
小 时 ， 而 是 随 着 踩 下 油门 时 间 增 加 ， 汽 车 加 速度 本 身 也 增加 了 。 


对 于 这 个 例子 ， 想 象 一 下 ， 我 们 每 分 钟 测量 一 次 速度 ， 如 下 表 所 列 。 





如 末 你 仔细 观察 可 以 及 现 ， 我 选择 让 速度 为 时 间 《 分 钟 ) 的 平方 。 
即 ， 在 时 间 为 2 分 钟 时 ， 速 度 为 2* = 4; 在 时 间 为 3 分 钟 时 ， 速 度 为 3 =9, 
在 时 间 为 4 分 钟 时 ， 速 度 为 4 = 16; 依 此 类 推 。 


现在 ， 这 个 表达 式 也 很 容易 写 出 来 了 。 
s= t 


RARAMEN ERR EHALA, BK EA RRR] 
如 何 进行 做 积分 计算 。 


让 我 们 将 这 个 表达 云 可 视 化 ， 这 样 ， 我 们 融 可 以 感 党 到， 速度 如 何 随 
时 间 的 变化 而 变化 。 


速度 与 时 间 
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速度 (英里 /小 时 ) 
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时 间 / 分 


可 以 看 到 速度 的 变化 越 来 越 快 。 当 前 ， 这 幅 图 已 经 不 是 一 条 直线 了 。 
可 以 想象 一 下 ， 速 度 爆炸 式 地 快速 增加 到 非常 大 的 数字 。 在 20 分 钟 时 ， 速 
度 将 达到 400 英 里 每 小 时 ;在 100 分 钟 时 ， 速 度 将 达到 10000 英 里 每 小 时 ! 


一 个 有 趣 的 问题 是 一 一 相对 于 时 间 ， 速 度 的 变化 率 是 什么 样 的 ? tae 
是 说 ， 速 度 如 何 随时 间 的 变化 而 变化 ? 


这 与 在 特定 时 间 扣 实际 速度 是 多 少 的 问题 不 一 样 。 我 们 已 经 有 了 表达 
式 s =t* ， 因 此 已 经 知道 这 个 值 了 。 








我 们 要 问 的 是 一 一 在 任何 时 间 点 ， 速 度 的 变化 率 是 多 少 ? 在 这 个 示例 
中 ， 这 人 句 话 的 意思 十 图 线 癌 何 处 弯曲 ? 


如 条 回想 一 下 前 面 的 两 个 例子 ， 可 以 及 现 ， 变 化 率 是 速度 基于 时 间 的 
曲线 的 笠 率 。 当 汽车 以 恒定 30 贡 里 每 小 时 的 速度 前 进 时 ， 速 度 并 未 改变 ， 
因此 变化 率 为 0。 当 汽车 稳步 加 快 时 ， 速 度 的 变化 率 是 每 分 钟 10 刺 里 每 小 
时 。 在 任何 时 间 点 ， 每 分 钟 10 贡 里 每 小 时 都 是 正确 的 。 在 时 间 2 分 钟 的 时 
人 
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在 曲线 图 中 ， 我 们 可 以 应 用 相同 的 中 路 吗 ? 当然 可 以 一 一 但 是 ， 此 
处 ， 让 我 们 慢 慢 理解 这 一 后 。 


A.4 手绘 微 积 分 

让 我 们 仔细 看 看 ， 在 时 间 等 于 3 分 钟 时 ， 发 生 了 什么 。 

在 3 分 钟 时 ， 速 度 为 9 英里 每 小 时 。 我 们 知道 ， 在 3 分 钟 后 速度 将 变 得 更 
快 。 让 我 们 将 这 与 6 分 钟 时 发 生 的 事情 相 比 。 在 第 6 分 钟 ， 速 度 为 36 英 里 每 
小 时 。 在 6 分 钟 后 ， 速 度 会 变 得 更 快 。 


但 是 ， 我 们 也 知道 ， 在 6 分 钟 后 的 那 一 瞬间 ， 速 度 增 加 的 速 雇 比 3 分 钟 
后 的 那 一 瞬间 大 。 这 是 友 生 在 3 分 钟 和 6 分 钟 处 事情 的 真正 区 别 。 


让 我 们 将 这 种 对 比 可 视 化 ， 如 下 图 所 示 。 
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可 以 看 到 ， 在 6 分 钟 处 的 斜率 比 在 3 分 钟 处 的 斜率 要 大 。 和 斜率 就 是 我 们 
升 望 得 到 的 变化 率 。 这 和 是 一 个 重要 的 体会 ， 让 我 们 再 说 一 通 。 在 曲线 任何 
氮 处 的 变化 率 ， 束 是 曲线 在 该 点 的 笠 座 。 


但 是 ， 如 何 测量 曲线 的 斜率 呢 ? 对 于 直线 而 言 ， 训 量 和 料 率 非 和 营 容 易 ， 
对 于 曲线 而 言 ， 可 以 画 出 称 为 切线 的 直线， 切线 要 尽 可 能 与 曲线 中 东 一 所 
处 的 斜 率 相 同 ， 这 样 惑 可 以 根据 切线 的 料 率 估计 出 曲线 在 这 一 点 的 斜率 。 
事实 上 ， 在 其 他 测量 方法 出 现 之 前 ， 这 束 是 人 们 测量 曲线 冬 率 的 方式 。 


为 了 让 读者 体会 一 下 这 种 做 法 ， 我 们 融 试 试 这 个 粗略 的 方法 。 下 图 时 
示 了 速度 曲线 图 ， 在 6 分 钟 时 ， 我 们 得 到 了 与 速度 曲线 仅 有 一 个 交 氮 的 切 
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时 间 / 分 
从 中 学 数学 中 我 们 知道 ， 要 计算 出 和 斜率 或 杨 肛 ， 需 要 将 斜面 的 高 大 除 


人 太太 TA 


VERE. FEE, mÈ GREE) As, WE TED 为 At。 符 号 A 称 
为 “ 描 量 ”， 也 融 是 一 个 微小 的 变化 。 因 此 At 丈 是 { 的 一 个 小 变化 。 


斜率 为 AMAt。 对 于 和 斜面， 可 以 选择 任何 尺寸 的 三 角形 ， 用 尺子 测量 高 
上 度 和 宽度 。 根 据 我 的 测量 结果 ， 恰 好 得 到 了 一 个 As 为 9.6、At 为 0.8 的 三 角 
形 。 因 此 ， 上 所 得 的 斜率 如 下 : 
某 一 点 的 变化 率 = 某 一 点 的 斜率 


AS 
At 


= 9.6 / 0.8 


= 12.0 


ns nena EENE, BERURKI 12.05% E 
每 小 时 。 


你 应 该 明日 ， 鞭 痢 一 把 乓 于 ， 尽 其 所 能 ， 攻 全 等 弃 用 手 男 切 线 ， 结 末 
也 不 会 特别 准确 。 因 此 ， 让 我 们 把 事情 变 得 稍微 复杂 一 点 。 


AS 非 手 绘 做 积分 


仔细 观察 下 图 ， 这 幅 图 中 有 一 条 新 的 标记 直线 。 这 条 直线 与 曲线 相交 
于 两 点 上 ， 因 此 不 是 一 条 切线 。 但 是 ， 这 条 直线 看 起 来 以 某 种 方式 围绕 着 
时 间 点 3 分 钟 这 个 中 心 。 


速度 (英里 /小 时 ) 


速度 与 时 间 


80 


60 


40 


20 





x—Ax X X+Ax 


时 间 / 分 


事实 上 ， 这 条 和 卫 线 与 时 间 扣 3 分 钟 有 联系 。 我 们 所 选择 的 时 间 操 是， 我 
们 所 感 兴趣 的 时 间 扣 t= 3 分 钟 的 上 下 儿 分 。 此 处 ， 我 们 选择 了 在 t= 3 分 钟 
时 间 扣 的 上 下 2 分 钟 处 ， 也 束 是 ，t= 1 分 钟 和 t = 5 分 钟 。 


使 用 数学 符号 表示 ， 我 们 可 以 说 Ax 为 2 分 钟 。 我 们 选择 的 时 间 点 为 x- 
Ax 和 x+Ax。 请 记 住 ， 符 号 A 只 是 章 味 看 一 个 “小 小 的 改变 ”， 因 此 Ax 是 在 X 
坐标 上 的 小 小 改变 。 

为 什么 这 样 做 呢 ? MARSH YS, BUSCAR me A 


如 果 观 察 在 时 间 点 x-Ax 和 x+Ax 处 的 速度 ， 在 这 两 点 之 间 辆 一 条 直线 ， 
那么 束 会 得 到 一 条 直线 ， 其 斜 变 大 致 与 中 间 点 xX 切 线 的 斜 蓉 相同 。 有 再 次 观察 


上 图 ， 看 看 那 条 直线 。 当 然 ， 这 条 直线 与 在 X 处 切线 的 真正 斜率 不 是 完全 相 
同 ， 但 是 我 们 会 修正 这 一 点 有 的。 

LEB EI oR AGN PRE CRB) 。 与 之 甫 使 用 的 方法 一 样 ， 我 
A EAE E FESE S RH S EA e 
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X 一 人 X X X 十 AX 


时 间 / 分 


高 度 是 在 X-AX 和 X +AXx 两 点 处 速度 的 看 ， 也 即 是 在 1 分 钟 和 5 分 钟 时 两 个 
速度 之 间 的 差 。 我 们 知道 ， 在 这 两 点 处 ， 速 度 分 别 为 7 = 1 和 5^ = 25 英 里 每 
小 时 ， 因 此 速度 的 委 值 为 24。 宽 度 非常 容易 计算 ， 束 是 xz-Ax 和 XxX+Ax 之 间 
的 距离 ， 也 就 是 1 和 5 之 间 的 距离 ， 即 4。 因 此 ， 我 们 得 到 : 


局 度 


aan 一 一 人 





梯度 = 


直线 的 梯度 与 在 t= 3 分 处 切线 的 梯度 近似 ， 为 每 分 钟 6 瑞 里 每 小 时 。 


让 我 们 暂停 一 下 ， 回 顾 一 下 已 经 完成 的 事情 。 首 先 ， 我 们 试图 使 用 手 
绘 切线 ， 计 算出 曲线 的 斜率 。 这 种 方法 永远 不 会 准确 ， 由 于 我 们 是 人 类 ， 
会 厌倦 、 无 聊 和 犯错 误 ， 因 此 不 能 一 再 使 用 这 种 方法 。 下 一 种 方法 不 需要 
手绘 切线 ， 而 是 要 按照 某 种 方法 创建 一 条 不 同 的 直线 ， 这 条 直线 的 斜率 与 
正确 的 斜率 大 致 相同 。 第 二 种 方法 可 以 使 用 计算 机 自动 完成 ， 由 于 不 需要 
人 的 工作 ， 因 而 可 以 多 次 进行 ， 并 且 速 度 非常 快 。 

这 已 经 很 不 错 了 ， 但 是 还 是 不 够 好 ! 

第 二 种 方法 只 得 到 一 个 近似 值 。 如 何 改进 这 个 值 ， 使 其 变 得 准确 呢 ? 
我 们 的 目标 是 按照 精确 数学 的 方式 ， 计 算出 事情 如 何 改变 ， 得 到 梯度 值 。 

这 是 发 生 神 奇 事情 的 地 方 ! 数学 家 已 经 发 展 了 一 种 非常 轻巧 犀利 的 工 
具 ， 并 且 从 这 个 工具 中 获得 了 许多 乐趣 。 

如 果 将 宽度 变 小 ， 会 发 生 什么 情况 ? 用 另 一 种 方式 来 表达 ， 也 就 是 ， 
如 果 让 Ax 变 小 ， 会 发 生 什 么 情况 ? 下 图 详细 说 明了 当 Ax 逐 渐变 小 时 ， 所 得 
到 的 若干 逼近 线 或 坡度 线 。 
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我 们 已 经 绘制 出 了 Ax = 2.0、Ax = 1.0、Ax = 0.5 和 Ax = 0.1 的 直线 。 你 


可 以 看 到 ， 生 线 越 来 越 接 近 我 们 所 感 兴趣 的 后，3 分 钟 处 的 点。 你 可 以 想象 
一 下 ， 妆 我 们 不 断 减 小 Ax 的 值 ， 下 线 将 越 来 越 接 近 3 分 钟 处 的 真正 切线 。 


当 Ax 变 得 无 限 小 时 ， 直 线 无 限 接近 真实 的 切线 。 这 真是 太 酯 啦 ! 
通过 让 信 兰 变 得 越 来 越 小 ， 改 进 近似 值 ， 盟 近 解 ， 这 种 想法 简直 太 强 


大 了 。 数 学 家 曲 人 径 通 幽 ， 求 解 出 难以 正面 求解 的 问题 。 这 有 后 像 从 侧面 悄 
悄 逼 近 ， 而 不 是 从 正面 进攻 。 


A.6 无 十 绘制 图 表 的 做 积分 


我 们 前 面 说 过 ， 微 积分 探讨 的 是 以 精确 的 数学 方式 ， 理 解 事物 如 何 变 
化 。 让 我 们 来 看 看 ， 我 们 是 个 能 够 将 这 种 逐步 缩小 Ax 的 想法 应 用 到 定义 这 
些 事物 的 数学 表达 式 中 一 一 如 汽车 速度 曲线 。 

我 们 知道 速度 是 时 间 的 函数 ， 即 s = tt 。 我 们 希望 知道 作为 时 间 的 函 
k TR SE ee WACO. KARR MHR, BANC AA IZ ESsMR 


变化 率 9s / 6t 等 于 我 们 所 构造 直线 的 高 度 除 以 宽度 ， 但 是 ， 其 中 Ax 无 
限 小 。 
高 度 是 什么 ? 正如 我 们 先前 看 到 的 ， 这 是 (t+ Ax)? -(t -Ax)* 。 也 就 是 根 
据 公 式 s = tt ， 其 中 t 为 所 感 兴趣 的 点 上 下 偏 移 Ax， 算 出 对 应 的 s， 相 减 得 
all 
宽度 是 什么 ? 正如 我 们 先前 所 看 到 的 ， 简 单 说 来 ， 这 只 是 (t+ Ax) 和 和 (t - 
Ax) 之 间 的 距离 ， 也 就 是 2Ax。 
我 们 束 快 到 达 目 标 了 ， 
OS x M 
EJ 宽度 
_ (t+ axP-(t-axP_ 
OE eT. 


ERTER HIF td HOE IK 


Os te + Ax? + 2tAx - t? - Ax* + 2tax 
ot 2Ax 


4tAx 
ZAK 





OS _ t 
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我 们 已 经 到 达 目 标 了 ! 在 数学 上 ， 精 确 的 变化 率 为 0s / ot = 2t。 这 意味 
着 ， 对 于 任何 时 间 t， 我 们 知道 速度 的 变化 率 为 0s / ot = 2t。 


在 t= 3 分 钟 处 ， 我 们 有 60s /GOt= 2t= 6。 在 使 用 近似 方法 之 前 ， 我 们 事 
实 上 确认 过 这 个 值 。 在 t = 6 分 钟 处 ，0s /6t= 2t= 12， 这 非常 准确 地 符合 了 
我 们 之 前 友 现 的 值 。 


在 t= 100 分 钟 处 ， 这 个 值 是 多 少 昵 ?90s/ ot = 2t= 每 分 钟 200 英 里 每 小 
时 。 这 意味 着 ， 在 100 分 钟 后 ， 汽 车 的 加 速度 达到 每 分 钟 200 瑞 里 每 小 时 。 


让 我 们 花 点 时 间 ， 中 考 一 下 ， 了 刚才 做 的 事情 有 多 人 么 的 重要 ， 多 人 么 的 酯 
JA 我 们 得 到 了 一 个 数学 表达 式 ， 这 个 表达 却 允 许 我 们 精确 地 知道 ， 在 任 
何 一 个 时 间 点 汽车 速度 的 变化 率 。 根 据 先 前 的 讨论 ， 我 们 可 以 及 现 变 化 率 
确实 随 着 时 间 而 定 。 


我 们 很 兽 运 ， 代 数 简 化 得 很 精巧 ， 但 是 简单 的 =t 并 没有 给 我 们 一 个 
符 试 的 机 会 ， 让 我 们 能 够 有 目的 地 缩小 Ax。 因 此 ， 斌 一 试 万 一 个 示例 ， 在 
这 个 示例 中 ， 汽 车 的 速度 有 点 复杂 。 





s=t+2t 
Os 高 度 
dt 宽度 


襄 度 是 什么 呢 ?” 这 是 在 ttrAx 处 和 t-Ax 处 所 计算 得 到 的 s 的 差 。 


局 
即 ， 高 度 为 (t+AX) 2+2 (t+Ax) - (t-Ax) 2-2 (t-Ax) 。 


(St 
x 
=e 


A? 这 就 是 (t+Ax) 和 (t-Ax) 之 间 的 距离 ， 依 然 为 2Ax。 


o5 (t+ Axj+2°¢t+Ax)-(t-AxP-2(t- Ax) 


— ee ee 
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ot 2Ax 


展开 并 们 化 表达 式 


Os te + Ax? + 2tAx + 2t + 2Ax -tt - AX + 2tAx - 2t + 2Ax 


ee ee 
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ot 2Ax 
4tAx + 4Ax 
2AX 
2 zt + 2 
= + 
dt 


这 是 一 个 重要 的 结果 ! 可 悲 的 是 ， 代 数 再 次 将 其 简化 得 有 一 点 太 过 容 
易 了 。 这 里 有 一 个 稍 后 将 谈 到 的 模式 ， 因 此 ， 我 们 不 费 吹 灰 之 力 就 得 到 了 
结果 。 


让 我 们 符 试 号 一 个 示例 ， 这 个 示例 不 会 太 过 复杂 。 我 们 将 汽车 的 速度 
设置 为 时 间 的 三 次 方 。 











S =t 

65 rag JE 

ot 宽度 

Os _ (t+4x)?-(t- ax? 

ot 2Ax 

展开 并 简化 表达 式 

小 
ot 2Ax 


6t?AX + 20x? 





Pe 
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2Ax 
os 一 St TE AXZ 
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现在 ， 事 情 变 得 更 有 趣 了 ! 我 们 得 到 了 一 个 结 朱 ， 这 个 结 东 中 包含 了 
Ax, MEZA, #IAT PN AXA BASIE S o 


那么 ， 请 记 住 ， 只 有 Ax 越 来 越 小 ， 变 得 无 限 小 时 ， 柳 度 值 才 正 确 。 


这 是 最 酷 炫 的 地 方 ! 当 Ax 越 来 越 小 的 时 候 ， 在 表达 式 0s / 0t = 3t + Axe 
中 的 Ax 会 发 生 什 么 事情 呢 ? 它 消失 了 ! 如 果 这 上 听 起 来 令 你 吃惊 ， 那 么 请 将 
Ax 想 象 为 非常 小 非常 小 的 一 个 值 。 你 可 以 尝试 想到 一 个 较 小 的 一 个 值 ， 然 
后 是 一 个 更 小 的 值 ..….... 你 可 以 一 直 这 样 找 下 去 ， 使 得 Ax 越 来 越 接 近 于 0。 
因此 ， 就 让 我 们 直接 将 它 当 为 0， 避 人 免 这 所 有 的 麻烦 。 


这 驶 得 到 了 一 二 在 寻找 的 数学 上 的 精确 答 守 


这 是 一 个 奇妙 的 结 坟 ， 这 次 ， 我 们 使 用 强大 的 数学 工具 来 进行 微 积 
T, HHX — RERE. 


A.7 模式 


我 们 使 用 deltas 值 (如 Ax) ， 将 deltas 值 越 变 越 小 时 ， 观 察 发 生 的 事 
I aes 而 乐 在 其 中 的 是 我 们 可 以 直接 计算 导数 而 无 需 进 行 上 所 有 这 
ue LNE. 


AA eS AU SOL, xe He MZ BLE AY RL: 
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WWF, teary Se, Be TRID 1, EREA. We 
LENTE, t MAS, ， 以 此 类 推 。 这 相当 容易 ! t 就 是 tt ， 因 此 ，t 的 导数 
为 tt 即 为 1。 


由 于 常数 ， 如 3，4，5 (常数 变量 ， 我 们 可 能 称 之 为 a，b，c) ， 都 没 
有 变化 率 ， 因 此 常数 束 简单 地 消 失 了 。 这 束 是 称 它 们 为 常量 的 原因 。 

但 是 ， 等 等 ， 请 注意 ，t 成 为 2t 而 不 是 t， 成 为 3t* 不 是 tt 。 这 里 还 有 
一 步 ， 在 容 指 数 减 小 之 前 ， 容 指数 被 用 作 了 乘 数 。 因 此 ， 在 2 Wye fa Bok 
1 之 前 ， 窜 指数 5 要 作为 乘 数 ， 从 而 5 x 2t* = 10t* 。 


下 面 总 结 了 在 进行 微 积 分 运算 时 ， 使 用 的 这 种 虹 规 则 。 


L a, 


y = QX meann = pač 
让 我 们 在 更 多 的 例子 中 答 试 ， 实 践 这 一 新 扩 术 。 


gz aa e ae Sstt 
| Ôt 


s= OE + Gt+ 4 cae 46t° + 9 
> Ôt 


Os 
SRT ht ee a m = 2 
ot 


因此 ， IRA RIFET AEE 运算 ， 对 于 大 多 数 用 途 而 言 ， 这 
就 是 我 们 所 需 的 微分 。 这 条 规则 只 DENTZIA, 也 就 是 使 用 各 种 变量 的 
时 次 方 组 成 的 表达 式 ， 如 y=ax3+bx“<+cx+d， 但 是 不 包括 sinx 或 cosx 这 
See TT WE IB A eK Se, A Ng 

=R Me 


然而 ， 对 于 神经 网 络 而 言 ， 我 们 确实 需要 一 个 额外 的 工具 ， 我 们 将 在 
下 一 节 中 讨论 这 个 工具 。 


A.8 PR ALHY PA BL 
想象 一 下 ， 一 个 函数 
f = y? 
其 中 y 本 号 也 是 函数 
y =X +X 


如 果 我 们 愿意 ， 我 们 也 可 以 写 为 f= (x3+x) 2. 

f 如 何 随 着 y 的 改变 而 改变 ? tht, Of / dy 是 什么 ?只 要 应 用 刚刚 得 
到 的 早 规 则 ， 科 上 朝 指 数 ， 早 指数 减 1， 那 么 这 个 计算 就 很 容易 了 ， 可 以 得 
#IOf / Oy = 2y 。 

还 有 一 个 有 趣 的 问题 一 如何 随 看 x 的 变化 而 变化 呢 ? 可 以 展开 表达 


式 f= (x+X)“<“， 然 后 应 用 相同 的 规则 。 不 能 不 加 思索 地 便 套 规则 ， 将 
(x3+x) 2ABH2 (xX3+X ) 。 

如 果 像 以 前 一 样 ， 采 用 逐渐 减 小 的 delta 方 式 ， 通 过 漫长 艰难 的 道路 ， 
解 出 了 这 个 表达 式 ， 我 们 会 意外 发 现 这 里 存在 着 另 一 组 模式 。 让 我 们 直接 
跳 到 答案 吧 。 


这 个 模式 古 这 样 的 : 


| 


Sf 6 6 | 
| Fo f 6 
| 





| Ox by Ox 


po 


re SAR i AG RR, BARC AED 


可 以 看 到 ， 这 个 模式 允许 我 们 逐 层 计算 出 寻 数 ， 束 像 剥 洋 和 长 ， 将 复合 
的 层 一 层 一 层 解 开 。 为 了 计算 9f/ 6x ， 我 们 可 能 发 现 ， 先 计算 出 0f/ 0y ， 然 
后 再 计算 出 0y /0x ， 这 会 比较 容易 一 些 。 如 采 这 些 都 比较 容易 ， 那 么 我 们 
束 可 以 对 看 起 来 不 可 能 的 表达 去 进行 微 积 分 运算 。 链 去 法 则 允许 我 们 打破 


问题 ， 将 问题 分 割 为 较 小 、 较 容易 的 问题 。 
再 次 观察 这 个 示例 ， 应 用 链 式 法 则 : 


f= y2 and y = x +x 


of _ of Oy 
OX dy Ox 


现在 ， 计 算得 到 了 比较 商 单 的 项 。 第 一 项 是 COf/ oy) =2y ， 第 二 项 


是 (Oy/0x) =3x2+1。 然 后 ， 使 用 链 式 法 则 ， 将 这 些 项 结合 起 来 ， 我 们 
得 到 : 


| Pe: 
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我 们 知道 ,，y=x3+x， 因 此 ， 得 到 了 只 有 x 的 表达 式 : 


Ba a C2 OX 8.8) PC SK EP) 
6x 
Ea = (2P + 2X) ( 3x* + 1 ) 


这 真是 见证 神奇 的 一 刻 ! 


你 可 能 会 质疑 为 什么 这 样 做 ， 为 什么 不 能 首先 根据 x 展开 f ， 然 后 应 用 
简单 的 暑 规 则 ， 对 所 得 到 的 多 项 式 进行 微 积分 运算 。 当 然 能 这 样 做 ， 但 是 
如 果 这 样 的 话 ， 就 不 能 详细 说 明 链 式 法 则 ， 而 链 式 法 则 可 以 解决 许多 比较 
困难 的 问题 。 


让 我 们 来 看 看 最 后 一 个 例子 ， 这 个 示例 沽 示 了 如 何 处 理 多 个 独立 变 


m 


如 果 得 到 一 个 函数 
f= 2Ky + ZZ 十 4z 


其 中 x y 和 z 是 彼此 无 关 的 变量 。 我 们 说 的 无 基 是 什么 意思 有 昵 ? 我 们 
的 意思 是 ，x、y 和 z 可 以 为 任意 值 ， 并 且 无 需 关 心 其 他 变量 的 取信 € 
be rd 这 不 同 于 前 一 个 示例 y =x3+x， 在 这 种 情况 下 ，y 
与 x FAK. 


0f/ Ox 是 多 少 ? 让 我 们 看 看 这 个 长 表达 式 的 每 项 。 第 一 项 是 2xy ， 因 此 
导数 为 2y 。 为 什么 这 么 简单 呢 ? 由 于 y 与 x 无 关 ， 因 此 非常 简单 。 当 我 们 
说 0f/ ox ， 我 们 说 的 是 ， 当 x 变化 时 ，8F 如 何 变 化 。 如 果 y Sx 无 天， 那么 可 
以 将 其 视 为 钊 数 。 即 y 也 可 能 是 如 2、3、10 的 另 一 个 数 。 


让 我 们 继续 ， 下 一 项 是 3x“z 。 可 以 应 用 寺 规 则 ， 得 到 2x3xz 或 6xz -~ H 
于 x 与 z 无 关 ， 因 此 我 们 将 z 视 为 如 2、4 或 者 100 这 样 无 聊 的 常数 。z 的 变化 


不 会 影响 到 x 。 


最 后 一 项 是 4z ， 这 项 中 不 存在 x 。 由 于 我 们 将 其 视 为 如 2 或 4 的 普通 常 
数 ， 因 此 这 项 完全 消失 了 。 





最 后 的 答案 是 
2 2y + 6 
— = 2y + 6XZ 
OX J 


在 最 后 一 个 示例 中 ， 重 要 的 一 所 是 你 要 有 信心 ， 急 略 己 知 的 无 天 变 
量 。 这 使 得 对 相当 复 末 的 表达 陈 进行 微 积 分 运算 变 得 非 和 营 简单 。 在 观察 神 
经 网 络 的 时 候 ， 我 们 非 第 需要 这 种 深刻 的 见解 。 
你 可 以 进行 微 积 分 运算 了 ! 
LE. 


如 果 走 到 了 这 一 步 ， 那 么 你 其 是 太 棒 了 ! 


你 真正 理解 了 微 积 分 的 芮 席 ， 明 日 了 如 何 使 用 通 进 ， 一 步 一 步 地 改 
普 ， 朋 到 最 终 引 入 了 人 铀 积分 。 在 其 他 困难 的 问题 上 ， 如 果 难 以 使 用 正常 的 
方法 求解 ， 那 么 你 可 以 符 试 使 用 这 些 方法 求解 。 


我 们 学 习 了 用 规则 和 和 链 式 法 则 这 两 种 技术 ， 从 而 能 够 进行 大 量 的 微 积 
分 运算 ， 包 括 理 解 神 经 网 络 的 工作 机 制 和 原理 。 


圣 受 你 的 新 力量 吧 ! 


WRB 使 用 树 每 派 米 工 作 


在 这 个 附录 中 ， 我 们 的 目标 是 在 树 每 派 上 安装 设置 IPython。 这 样 做 有 
各 干 理由 : 


。 Hit tN Bic A a, RIK, Se I A foi. 

。 例 每 派 非 钊 开放 ， 它 们 运行 在 目 由 、 开 源 的 Linux 操 作 系统 上 ， 同 时 还 
有 许多 自由 开源 的 软件 ， 包 括 Python。 为 了 共享 你 的 工作 ， 人 允许 其 他 
人 在 你 的 工作 上 建立 目 己 软件 ， 理 解 事 物 如 何 工 作 非 常 重要， 开源 很 
重要 。 教 育 应 该 教会 学 生 学 习 事 物 如 何 工 作 ， 制 作出 目 己 的 产品 ， 而 
不 是 教学 生 购 买 财 源 的 专 有 软件 。 

。 由 于 种 种 原因 ， 无 论 是 在 学 校 ， 还 是 在 家 中 ， 无 论 是 编写 软件 ， 还 是 
构建 使 件 工 程 ， 学 习 计 算 机 的 孩子 们 都 非常 欢迎 树 每 铂 。 

。 树 每 派 没有 驳 叶 的 计算 机 和 笔记 本 电脑 那样 强大 。 由 此 ， 证 明了 在 树 
每 派 上 ， 你 仍然 使 用 Python 实现 有 实际 用 途 的 神经 网 络 ， 这 是 一 个 有 
趣 以 及 有 价值 的 挑战 。 


HHA EVE Zero bk eos PIE PY EUR EE) 要 便宜 ， ARE HH PY AUR 
Zero， 让 神经 网 络 在 这 样 的 计算 机 上 运行 ， 这 种 挑战 更 有 价值 ! 这 台 计 算 
机 的 费用 约 4 丙 镑 或 者 5 美元 。 


p 这 是 我 的 树 每 派 Zero， 劳 边 是 一 枚 2 便士 硬币 。 树 每 派 Zero 真 是 太 微 小 
| 
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我 们 假设 你 已 经 有 了 一 人 台 通 电 局 动 的 树 每 派 ， 有 键盘 、 忌 标 、 显 示 需 
以 及 可 访问 的 互联 网 。 


里 然 有 厂 干 种 操作 系统 可 供 选 择 ， 但 是 我 们 坚持 使 用 最 流行 控 作 系 
统 ， 也 就 是 得 到 官方 支持 的 Raspian， 它 是 基于 广 受 欢迎 的 Linux 发 行 版 
Debian 而 设计 的 可 以 在 树 每 派 上 很 好 地 运行 的 版 本 。 树 每 派 可 能 已 经 目 市 
安装 了 这 个 系统 。 如 果 你 的 树 每 小 还 未 安 闭 这 个 系统 ， 可 以 根据 官方 网 站 
链接 上 的 指导 安装 这 个 系统 。 如 果 你 没有 信心 安装 操作 系统 ， 其 至 可 以 购 
买 已 经 安装 了 这 个 系统 的 SD 存储 卡 。 


当 司 动 树 每 派 时 ， 你 应 该 看 到 如 下 的 时 面 。 由 于 条 面 的 背景 图 片 有 一 
ALAD Ù, TALC BOHR S TEL HY roe FS o 


ih = = | 
5 全 已 国 赣 今 国 ? 了 ww 国 2” 


(| 


Ay A ee NA EARRA, FHERR LA ERRET . 


我 们 将 安装 IPython， 这 样 我 们 就 可 以 通过 Web 浏 览 器 与 相对 友好 的 交 
互 式 Notebook 一 同 工 作 ， 而 无 需 担 心 源 代码 文件 和 命令 行 。 


为 了 安装 IPython， 我 们 确实 需要 使 用 命令 行 工 作 ， 但 是 只 需要 这 样 做 
一 次 ， 做 法 非 间 简单 容易 。 


打开 终 痛 应 用 程序 ， CEL TE I TE Er ROR PR Eka a HY ARE EL o 
QU FEA be Pee TE TZ op ETT LE, th ALS ER IK ne ER Hi 
(Terminal) 。 当 运 行 这 个 终 ， ving AY , 会 看 到 一 个 黑 框 框 ， pa 文 个 黑 框 框 中 


可 以 键入 命令 ， 看 起 来 束 像 这 样 。 
ë OP ® O 国 permspbenr- Ve} = i) | ws 








VST REIR RAS AP Fel AR TRE TU PF UT RAI LR AR 
的 命令 。 如 条 你 必须 获得 特殊 的 权限 ， 在 终 病 键入 以 下 命令 : 


sudo su - 


你 会 看 到 提示 从 古井 号 “#”。 le al Mil # 写 表示 你 已 经 拥 
有 J 了 特权 ， 现 在， 你 对 所 输入 的 内 容 应 该 小 心 一 点 


下 面 的 命令 刷新 了 树 奏 派 当 前 的 软件 列表 ， 更 新 已 经 安 儿 的 软件 ， 如 
朱 计 算 机 需要 ， 会 引入 任何 额外 的 软件 。 


apt-get Update 
apt-get dist-upgrade 


除非 你 最 近 已 经 更 新 了 软件 ， 人 否则 有 些 软件 很 可 能 需要 升级 。 你 会 看 
到 很 多 文本 飞 过 。 你 可 以 放心 地 忽略 这 些 文本 。 计 算 机 可 能 会 提示 你 按 
下 “y” 键 确认 更 新。 


现在 ， 树 每 派 已 经 焕然 一 新 了， 请 输入 命令 安装 IPython 吧 ! 请 注意 ， 
在 写本 书 的 时 候 ，Raspian 软 件 包 还 未 包 合 足够 新 的 了 Python 瓜 本 ， 能 够 与 我 
们 先前 创建 、 上 传 到 GitHub 供 任何 人 浏览 和 下 载 的 神经 网 络 程 序 所 使 用 的 
Notebook 版 本 相互 莱 容 。 否 则 的 话 ， 我 们 可 以 人 简单 地 输入 “apt-get install 
ipython3 ipython3-notebook” 或 类 似 的 指令 。 


如 果 你 不 希望 运行 来 自 GitHub 的 这 些 后 缀 名 为 ipynb 的 Notebook 文 件 ， 
i AY DA tay e 182 H R A PY EUR EF E RAMA A IH WS [Python Fl Notebookhiz 


如 有 末 确 实 硕 望 运行 新 近 的 IPython 和 Notebook 软 件 ， 需 要 使 用 “pip” 指 
令 ， 加 上 “apt-get” 指 令 ， 从 Python Package Index 处 获得 新 近 的 软件 。 不 同 
之 处 在 于 ， 软 件 由 Python (pip) 管理 ， 而 不 是 由 操作 系统 软件 管理 右 
CAPT) 管理 。 输 入 以 下 命令 ， 可 以 得 到 所 需要 的 一 切 。 


apt-get install python3-matplotlib 
apt-get install python3-scipy 


pip3 install jupyter 





闪 过 一 些 文字 后 ， 这 项 工作 就 完成 了 。 工 作 的 速度 取决 于 特定 的 树 莓 
nae Fiennes aan anne 
幕 截图 。 
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PY ARI in BEA Ra BAR ASD-B, BURBS AA EH SDR 
样 。 它 们 没有 普通 计算 机 那么 大 的 空间 。 输 入 以 下 指令 ， 清 理 为 了 更 新 树 
每 派 而 下 载 的 软件 包 。 


apt-get clean 


最 新 版 本 的 Raspian 使 用 Chromium (t47 Hy) Chromed gS HI FTV hx 
AL) 来 代 蔡 Epiphany 网 页 浏览 器 。 比 起 笨重 的 Chromium，Epiphany 轻 巧 得 
多 ， 并 且 可 以 很 好 地 与 微小 树 奏 派 Zero 一 同 工 作 。 要 将 Epiphany 设 置 为 默 
认 浏 览 器 以 用 于 稍 后 的 IPython Notebook 文 件 ， 请 输入 以 下 命令 : 


update-alternatives --config X-www-browser 


这 条 命令 会 香 诉 你 ， 当 前 默认 的 浏览 器 是 什么 ， 并 且 如 果 你 原意， 可 
以 设置 一 个 新 的 浏览 器 。 选 择 与 Epiphany 相 关 的 数字 ， 你 就 完成 设置 了 。 


束 这 样 了， 任务 完成 。 为 了 防止 计算 机 做 出 底层 的 改变 〈 例 如， 改变 
MIRA, WARES) ， 请 重新 启动 树 每 派 。 可 以 通过 从 左上 和 角 
的 主 衣 时 中 选择 “Shutdown...” 选 项 ， 然 后 选择 “Reboot”"， 来 重 局 树 每 派 ， 如 
下 图 所 示 。 


ë tR Il > be 2 & Shutdown Options Ve} = ©) [pesos 


fay 





Shutdown Options ~ 


在 树 每 派 再 次 局 动 后 ， 从 终端 输入 以 下 命令 以 局 动 IPython: 


Jupyter-notebook 


这 将 自动 启动 Web 浏 览 器 ， 并 显示 IPython 主 页 ， 从 这 个 主页 中 ， 我 们 
可 以 创建 新 的 IPython Notebook 文 件 。Jupyter 是 运行 Notebook 文 件 的 新 软 
Ie 


以 前 ， 可 能 会 使 用 命令 “ipython3 notebook”， 在 过 渡 期 间 ， 这 条 命令 继 
续 可 用 。 以 下 显示 了 IPython 的 起 始 页 。 


$ H DA 你 B E piaraspberrypi: ~ {E} Home = di es} 2215 






“| > — httpylocalhost8888/treetoken=a2b82fa9dbbdé1 B0BM96a7 fab37 1 5f5 1 e0S8e672e1 140cd0 CM g 


= Jupyter 


Select ters to perfonm actions pon the m. Upload News S 


AeA I! 我 们 在 树 每 派 上 局 动 并 运行 了 IPython。 

你 可 以 进行 正常 操作 ， 创 建 IPython Notebook 文 件 ， 我 们 将 演示 在 本 书 
中 开发 的 代码 确实 可 以 运行 。 从 GitHub 网 站 获取 手写 数字 的 MNIST 数 据 集 
和 Notebook 文 件 。 在 新 的 浏览 上 吉 选 项 卡 上 ， 输 入 以 下 和 链接: 


e https://github.com/makeyourownneuralnetwork/makeyourownneuralnetworl 


你 会 看 到 GitHub 的 项 目 页 面 ， 如 下 网 所 示 。 点 击 右上 角 的 “Clone or 
download” 之 后 ， 点 击 “Download ZIP”, 3k EME. 


ë tH [ À bes & >i Erasphemypi: = É) GitHub = makeyouro 全 | | oR) 22°18 
= = 








如 果 GitHub 与 Epiphany 不 能 很 好 地 兼容 ， 那 么 在 浏览 器 中 输入 以 下 链 
接 来 下 载 文件 : 


e https://github.com/makeyourownneuralnetwork/makeyourownneuralnetworl 
archive/master.zip 


下 载 完成 时 ， 浏 览 器 会 告诉 你 。 打 开 一 个 新 的 终端 ， 输 入 下 列 命令 ， 
解压 缩 文件 ， 然 后 删除 压缩 包 ， 清 空空 间 。 


unzip Downloads/makeyourownneuralnetwork-master.zZip 


rm -f Downloads/makeyourownneuralnetwork-master.zip 





将 文件 解压 到 名 为 makeyourownneuralnetwork-master 的 目录 中 。 也 可 以 
将 访 目 录 重 命名 为 简短 的 名 字 ， 但 这 不 是 必需 的 。 


由 于 GitHub 网 站 不 允许 非常 大 的 文件 存在 ， 因 此 只 包含 了 较 小 版 本 的 
MNIST 数 据 。 为 了 获得 全 套数 据 ， 在 同一 终端 输 入 以 下 命令 ， 导 册 到 
mnist_dataset 目 录 ， 然 后 以 CSV 格 式 获 得 完整 的 训练 数据 集 和 测试 数据 集 。 


cd makeyourownneuralnetwork-master/mnist_dataset 
wget -c http://pjreddie.com/media/files/mnist_train.csv 


wget -c http://pjreddie.com/media/files/mnist_test.csv 





下 载 所 需 的 时 间 取 决 于 你 的 网 络 连接 和 树 莓 派 的 具体 型 号 


现在 ， 你 ct ae 
请 关闭 终 闹 ， 但 是 不 要 关闭 局 动 IPython 的 那个 终 


回 到 显示 了 IPython 起 始 页 面 的 网 页 浏览 器 ， 现 在 ， 在 列表 中 ， 可 以 看 
到 新 文件 夹 makeyourownneuralnetwork-master。 点 击 进 入 此 文件 夹 ， 就 像 在 
任何 其 他 计算 机 上 一 样 ， 可 以 打开 任何 一 个 Notebook 文 件 。 下 图 显示 了 在 
这 个 文件 夹 中 的 Notebook 文 件 。 
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B.2 确 你 各 项 工作 正和 常 进行 


在 训 ATMA E A H 自 完 来 检查 各 个 项 ， 比 如 读 取 文件 、 显 
示 图 像 等 ， 是 否 能 够 正常 工作 。 让 我 们 打开 名 
为 “part3_ mnist_data_set_with_rotations.ipynb” 的 Notebook 文 件 ， 这 个 文件 能 
a 这 些 任务 。 应 该 可 以 看 到 Notebook 文 件 已 经 打开 并 准备 就 绪 ， 如 下 
ZN o 


ë MED 国 pi@rspberypi ~ 
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“| > — http.localhost8888/notebooks/makeyourownneuralnetwork-master/parta_mnist_data_setwith_rotations ipynb G) A © 


x — parta_mnistd 
m jupyter part3_mnist_data_set_with_rotations Last checkpoint: 21 hours ago (unsaved changes) a Logout 
ciii i Hai # |F 
E + 品格 +++ HEC d s ce cCelTealbar 
In [i]: ë python notebook for Hake Your Onn N 
# this code demonstrates rotating the training images to create more example 


In [2]: import numpy 
import matplotlib.pyplot 
Gmatplotlib inline 


[3]; 7 Scipy. ndlnaiee fav retracing image orrays 
import scipy .ndimage 


In [4]: i file and read its i list 
da ta “file ‘ope ng mnis st tr ain 100. "r'y 
data_list = = de > “ja Le ety 
data_file.close 

In Í 


j: | # which recor 
record = 6 


In [6]: Ji 
all. lic z age listir ecor d). spliti "J 
scaled_input = ((numpy.asfarray(all_ et jy a * 0,99) + 0.01).reshape(78, 278) 


In [7]: int(numpy.min(scaled_input})) 


M“Cell? 32-2 thi“ Run Allj”， 运 行 Notebook 文 件 中 的 所 有 指令 。 
起 现代 的 笔记 本 电脑 ， 树 每 派 会 运行 得 更 长 一 些 ， 一 段 时 间 后 ， comes 
得 到 一 些 旋 转 数字 的 图 睛 。 
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Z jupyter part3_mnist_data_set_with_rotations Last checkpoint: 21 hours ago (autosaved) 


Aa + * ® B® ++ + HB © code + i CellToolbar 
0.01 
0.997 48795956 
In [11]: # plot the +10 degree rotated variation 
matplotlib.pyplot.imshow( inputs_plusi0_img. cmap=-‘Greys’, interpolation=‘None’) 
Dut[11];: <matplotlib. image .AxesImage at OxaeeSaabo> 





In [12]: # plot the «ff degree rotated variation 
matplotlib.pyplot. imshow{ inputs_minus10_img. omap="Greys*. interpolation=‘None*) 


这 表明 这 几 项 事情 都 可 以 顺利 工作 ， 包 括 从 文件 中 加 载 数据 ， 以 及 为 
了 能 让 数组 和 图 像 工 作 并 绘制 图 形 而 导 入 Python 扩 展 模 块 。 


现在 ， 让 我 们 从 文件 菜单 中 “Close and Halt”， 关 闭 Notebook 文 件 ， 而 
不 是 直接 关闭 浏览 器 选项 卡 。 


B.3 ”训练 和 测试 神经 网 络 


现在 ， 让 我 们 试看 训练 神经 网 络 。 打 开 名 
为 “part2_neural_network_mnist_data” 的 Notebook 文 件 。 这 个 版 本 的 程序 非 
第 基 本 ， 不 能 执行 旋转 岁 片 这 样 复杂 的 事情 。 由 于 树 每 派 比 一 股 的 笔记 本 
电脑 要 悍 得 多 ， 因 此 我 们 会 关闭 一 些 参数 ， 城 少 所 需 的 计算 量 ， 这 样 可 以 
ee 合 能 够 工作 ， 而 无 需 浪 费时 间 ， 或 直到 最 后 才 发 现代 码 无 
2 (ee 


我 已 经 将 隐藏 节点 的 数量 减少 为 10， 世 代 的 数目 减少 为 1。 仍 然 使 用 完 
整 的 MNIST 训 练 和 测试 数据 集 ， 而 不 是 先前 创建 的 相对 较 小 的 子 集 。 
MA “Cel” X “Run All’, 让 程序 运 ZÍJ REMEE... 


Ea TF, REWA EMRK, (A EY REYE Zero 
要 25 分 钟 才 运 行 完 这 个 程 厅 。 考虑 到 树 每 派 Zero 的 成 本 只 有 笔记 本 电脑 
的 大 约 1/400， 这 不 算 太 慢 了 。 我 原本 以 为 要 花 上 一 夜 的 时 间 。 





Cc) i @ 国 |pi@raspberypi ~ © part2_neural_networ... | = @)) ex 22:10 





part2_neural_network_mnist_data 
<i > — http://localhost:8888/notebooks/makeyourownneuralnetwork-master/part2_neural_network_mnist_data.ipynb C | m|% 


D e 二 part2_neural_n... 


sc ju pyter part2_neural_network_mnist_data Last Checkpoint: a few seconds ago (autosaved) ê uae 
File Edit inse ~ 
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end correct or inco to list 
if (label == correct label): 

ork ans Ne S ort 
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lse: 
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ass 
pass 
In [9]: # calcul the pe ce the fraction of correct answers 


pe 
screens ar balls n unpy - asar Ey Cr ech 
nt (“perfor e ,scorecard_array.sum() / scorecard_array.size) 


performance = 0.8536 


B.4 树 每 铂 成 功 了 


我 们 刚刚 已 经 证 明 ， 即 使 使 用 售 价 4 英镑 或 5 美元 的 树 侮 派 Zero， 仍 然 
能 够 完全 使 用 IPython Notebook 创 建 代 码 、 训 练 和 测试 神经 网 络 它 只 不 
过 是 运行 得 慑 了 点 。 





欢迎 来 到 异步 社区 ! 


异步 社区 的 来 历 


异步 社区 (www.epubit.com.cn ) 是 人 民 邮 电 出 版 社 旗 下 IT 专业 图 书 旗舰 
社区 ， 于 2015 年 8 月 上 线 运营 。 


异步 社区 依托 于 人 民 邮 电 出 版 社 20 余 年 的 开 专 业 优 质 出 版 资源 和 编辑 
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免费 电子 书 


Free eBook 
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社区 里 部 有 什么 ? 


KAA 


BOTT HA EY See EITHER, EEEn Webi. BERS 
等 领域 有 众多 经 典 畅 销 图 书 。 社 区 现 已 上 线 图 书 1000 余 种 ， 电 子 书 400 多 
种 ， 部 分 新 书 实现 纸 书 、 电 子 书 同步 出 版 。 我 们 还 会 定期 发 布 新 书 书 讯 。 


ie ane): 
社区 内 提供 随 书 附 赠 的 资源 ， 如 书 中 的 案例 或 程序 源 代码 。 


为 外 ， 社 区 还 提供 了 大 量 的 免费 电子 书 ， 只 要 注册 成 为 社区 用 户 束 可 
以 免费 下 载 。 


ERA H) 


很 多 图 书 的 作 译 者 已 经 入 驻 社 区 ， 您 可 以 关注 他 们 ， 咨 询 技术 问题 ; 
可 以 阅读 不 断 更 新 的 技术 文章 ， 听 作 诺 者 和 编辑 畅 聊 好 书 育 后 有 趣 的 故 
事 ; 还 可 以 参与 社区 的 作者 访谈 栏目 ， 癌 您 天 注 的 作者 提出 采访 题目 。 


灵活 优惠 的 购书 
您 可 以 方便 地 下 单 购买 纸 质 图 书 或 电子 图 书 ， 纸 质 图 书 直接 从 人 民 邮 
电 出 版 社 书库 发 货 ， 电 子 书 提供 多 种 阅读 格式 。 


对 于 重 磅 新 书 ， 社 区 提供 了 预 售 和 新书 首 友 服 务 ， 用 户 可 以 第 一 时 间 买 
到 心仪 的 新 书 。 


用 尸 帐 尸 中 的 积分 可 以 用 于 购书 优惠 。100 积 分 =1 元 ， 购 关 图 书 时 ， 
在 mm 里 填 入 可 使 用 的 积分 数值 ， 即 可 扣 减 相应 金 籁 。 


有 特别 优惠 


购买 本 电子 书 的 读者 专 圣 腊 步 社区 优惠 券 。 使 用 方法 : 注册 成 为 社区 用 户 ， 在 下 单 购书 时 





输入 “57AWG ”, 然后 点 击 “ 使 用 优惠 码 *”， 即 可 享受 电子 书 8 折 优 囊 〈( 本 优惠 券 只 可 使 用 一 次 ) 。 





纸 电 图 书 组 合 购 关 


社区 独家 提供 纸 质 图 书 和 电子 书 组 合 购买 方式 ， 价 格 优惠 ， 一 次 购 
买 ， 多 种 阅读 选择 。 





Wireshark 网 络 分 析 的 艺术 

ES ; HTA 

ER: Sits 

分 类 ; 计算 机 科学 > 安全 与 加 室 > 网 络 安全 


Wireshark 星 当 闻 最 流行 的 网 站 包 分 析 工具 。 记 上 手 篇 单 ,无需 培 训 就 可 外 门 ， 很 守 
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社区 里 还 可 以 做 什么 ? 


fe SOK 


您 可 以 在 图 书页 面 下 方 提交 勘误 ， 每 条 勘误 被 确认 后 可 以 获得 100 积 
分 。 热 心 勘误 的 谈 者 还 有 机 会 参与 书稿 的 审 校 和 翻译 工作 。 


写作 


竹 区 提供 基于 Markdown 的 写作 环境 ， 豆 欢 与 作 的 您 可 以 在 此 一 试 吴 
手 ， 在 社区 里 分 圣 您 的 技术 心得 和 读书 体会 ， 更 可 以 体验 目 出 版 的 乐趣 ， 
轻松 实现 出 版 的 梦想 。 


和 由 霖 成 为 什 区 认证 作 详 者 ， 还 可 以 至 受 异 步 社区 提供 的 作者 专 至 特色 
服务 。 


会 议 活 动 早 知道 


您 可 以 掌握 IT 圈 的 技术 会 议 资 讯 ， 更 有 机 会 免费 获 赠 大 会 门票 。 


加 入 异步 


扫 手 任意 二 维 人 部 能 找到 我 们 : 
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异步 社区 


微 信 订 阅 号 
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QQ#H: 436746675 
社区 网 址 : www.epubit.com.cn 
EJW: EK 
EJM: @ 人 邮 有 异步 社区 ，@ 人 民 邮 电 出 版 社 -信息 撤 术 分 社 


投 稳 放 咨询 : ”contact@epubit.com.cn 


